Set of flashcards Testtheorie und Testkonstruktion

Flashcards	44
Students	12
Language	Deutsch
Category	Psychology
Level	University
Created / Updated	12.02.2019 / 12.08.2021
Weblink	https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin
Embed	<iframe src="https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Bestimmung der Test-Reliabilität bei essenziell tau-äquivalenten Modellen

- cronbachs-alpha

- auf Basis einer Summenvariable S

---> alle Items müssen gleich gewichtet sein!

- semTools::reliability(fit)["alpha",]

----> eta und total / Gesamtreliabilität gleich, da es nur eine latente Variable gibt

----> ab .70 supi

Wofür benötigt man die Spearman-Brown-Formel?

...zur Testverlängerung (siehe Reliabilität) bei essenziell tau-parallelen Variablen

= Das Summieren von mehreren Items kann Präzision der Messung erhöhen

Annahmen essenziell tau-paralleler Modelle

- jede beobachtete Variable lässt sich in eine True-Score-Variable und eine Messfehlervariable zerlegen

- die True-Score-Variablen sind bis auf eine additive Konstante (alpha / Itemschwierigkeit) identisch -> daher essenziell

- Messfehlervariablen ei und ej sind unkorreliert

--------------------------------------------------neu hinzukommend---------------------------------------------------------------------------------------

- Messfehlervarianzen sind identisch für verschiedene Items (tau-parallel)

---> wir gewinnen dadurch 2 zusätzlich Freiheitsgrade

INFO:

- streng parellel = alle Items messen genau gleich - gleiche "Messgenauigkeit", gleiche Reliabilität

- essenziell-parallel = ein Item darf anders sein (sehr ökonomische Methode, da Items austauschbar sind)

Modellspezifikation essenziell tau-paralleler Modelle in R

ess.parallel <- 'eta =~ 1*Q1 + 1*Q6 + 1*Q11,

Q1 ~~ eps*Q1

Q6 ~~ eps*Q6

Q11~~ eps*Q11'

Wo ist was im R-Output zum essenziell tau-parallelen Modell?

- Fehlervarianzen (Std. Error) auch alle gleich

Bestimmung der Reliabilität bei essenziell tau-parallelen Modellen

1. nach Formel, wie für tau-äquivalente Reliabilität

2. Convenience Funktion: inspect(fit, "rsquare")

---> in beiden Fällen gleiche Reliabilität für alle drei Items

------> Testverlängerung praktisch

Wozu dient die Testverlängerung?

= zur Erhöhung der Präzision unserer Messung

- durch Summierung von mehreren Items

Ich: "Wie viele Items brauche ich denn, um die Präzision meiner Messung zu erhöhen?"

Spearman-Brown: "Warum hast du mich das nicht gleich gefragt..."

Annahmen des Messmodells mit tau-kongenerischen Variablen

- beobachtete Variable in True-Score-Variable und Messfehlervariable zerlegt

- Messfehlervariablen ei und ej sind unkorreliert

--------------------------------------------nur hier--------------------------------------------------------

- die True-Score-Variablen sind lineare Transformationen voneinander

---> Bsp.: Umrechnung von Fahrenheit in Celsius

- Itemschrierigkeit und Trennschärfe sind unterschiedlich

- True-Score und Fehlervarianz sind gleich

---> bei einigen Items werden Fähigkeiten schneller entdeckt, als bei anderen

------> Faktorladungen verschieden (Lambda)

Modelspezifikation des tau-kongenerischen Modells in R

kongener <- 'eta1 =~ 1*Q1 + Q6 + Q11'

Modellidentifikation tau-kongenerischer Modelle

Ein tau-kongenerisches Modell mit 3 Indikatoren weist immer einen perfekten Fit / saturierte Identifikation auf

-> nicht restriktiv genug

-> mindestens 4 Indikatoren notwendig, um testbare Konsequenzen aufzudecken

Was ist wo im R-Output tau-kongenerischer Modelle?

Mit welchem Maß erfolgt die Bestimmung der Reliabilität bei tau-kongenerischen Modellen?

- cronbachs-alpha ist hier zu ungenau

--> repräsentiert nur die untere Grenze der Reliabilität

-----> McDonalds omega ist das Reliabilitätsmaß der Wahl

Wie ist die Itemschwierigkeit bei dichotomen Antwortvariablen definiert?

= Wahrscheinlichkeit, mit der die Variable den Wert 1 annimmt

Zusammenfassend: Was variiert je nach Messmodell?

- Faktorladung

- Leichtigkeitsparameter

- Fehlervarianzen

- Reliabilität

--> bei allen: Kovarianzen der Fehler = 0

----> sonst könnte ein anderer Faktor dahinter liegen!

Zusammenfassend: Womit misst man die Reliabilität in welchem Modell?

Welche vier Eigenschaften weisen die Fehlervariablen εi und die True-Score-Variablen τi in der KTT auf?

Keyboard commands:

= turn,

= for-/backward,

= scroll

1. Der Erwartungswert einer Messfehlervariable ist für jede Ausprägung der True-Score-Variable = 0

2. Der unbedingte Erwartungswert einer Messfehlervariable = 0

3. Messfehler- und True-Score-Variablen sind unkorreliert

4. Die Varianz einer beobachteten Variable lässt sich additiv zerlegen in die Varianz der True-Score-Variable und in die Varianz der Messfehler-Variable

Wie ist die Reliabilität in der KTT definiert?

Keyboard commands:

= turn,

= for-/backward,

= scroll

= Rel(Yi) ist der Anteil der wahren Varianz an der Gesamtvarianz einer beobachteten Variablen

- Wie zuverlässig können interindividuelle Merkmalsunterschiede erfasst werden?

- kann Werte zwischen 0 (schlecht, Unterschiede sind messfehlerbedingt)

und 1 (supi, beobachtete Unterschiede sind auf "wahre" Merkmalsunterschiede zurückzuführen) annehmen

---> je kleiner der Messfehler, desto höher die Reliabilität

- in homogenen Stichproben ist die Reliabilität meist geringer als in heterogenen, da geringere Varianz wahrer Werte

----> wir sollten also zusätzlich die Messfehlervarianz berechnen

Welche Verfahren zur empirischen Bestimmung der Reliabilität gibt es?

Keyboard commands:

= turn,

= for-/backward,

= scroll

- das Merkmal muss mindestens zweimal gemessen werden

- weitere Annahmen bezüglich des zugrundeliegenden Messmodells müssen getroffen werden

Aber wie..?

1. Testwiederholungsmethode

2. Paralleltestmethode

3. Testhalbierungsmethode

Unter welchen Umständen ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilität?

Keyboard commands:

= turn,

= for-/backward,

= scroll

Wenn sich der beobachtete Wert des Gesamttests in zwei parallele Messwerte aufspalten lässt.

--> Modell paralleler Messungen

Welche Verfahren zur Bestimmung der wahren Werte in der KTT gibt es?

Keyboard commands:

= turn,

= for-/backward,

= scroll

1. klassische Verfahren

- basieren auf Konzeption der wahren Werte (True-Score-Variablen)

2. modellbasierte Verfahren

- basieren auf konkretem psychometrischem Modell und verwenden die vorliegenden Items zur Schätzung der wahren Werte

---> da wahre Werte stets nur geschätzt werden, sind sie mit gewisser Unsicherheit behaftet und sollten daher mittels Konfidenzintervall interpretiert werden

Was macht das klassische Verfahren zur Bestimmung wahrer Werte in der KTT aus?

Keyboard commands:

= turn,

= for-/backward,

= scroll

- beobachtete Werte werden als Schätzerwerte für die wahren Werte genutzt

--> zulässig, da der personenbedingte Erwartungswert einer Variablen gleich dem wahren Wert ist

--> wie präzise der wahre Wert geschätzt werden kann hängt von der Fehlervarianz ab (große Fehlervarianz = unpräzise)

------> Konfidenzintervall zur Bestimmung der Präzision

Was macht die modellbasierten Verfahren zur Schätzung des wahren Werts aus?

Keyboard commands:

= turn,

= for-/backward,

= scroll

Sie unterscheiden sich darin, wie die Faktorwerte (wahre Werte) und deren Standardfehler geschätzt werden

--> In R (lavaan) können diese mit der lavPredict Funktion bestimmt werden

Was ist der Standardschätzfehler und wofür benötigt man ihn in der psychodiagnostischen Praxis?

Keyboard commands:

= turn,

= for-/backward,

= scroll

Der Standardschätzfehler entspricht der Standardbaweichung der Fehlervariablen.

Er wird benötigt, um ein Konfidenzintervall zu berechnen

---> Reliabilität hoch --> Standardschätzfehler gering --> Konfidenzintervall kleiner

Was ist die Itemschwierigkeit?

Keyboard commands:

= turn,

= for-/backward,

= scroll

= Pi

= Popularitätsindex

= Itemleichtigkeit

- entspricht dem Anteil der Personen, die das Item richtig lösen oder bejahen

--> das Mininum von Pi ist hierbei der niedrigste Wert, der angekreuzt wurde (kann auf einer Skala von 1 - 5 also auch die 2 sein)

--> mittlere Schwierigkeiten (50%) sind zu bevorzugen, unter 20% und über 80% Pi werden Items i.d.R. ausgeschlossen

Was ist die Item-Varianz?

Keyboard commands:

= turn,

= for-/backward,

= scroll

= Differenzierungsindex eines Items

= Ausmaß der interindividuellen Unterschiede im Antwortverhalten der Probanden für ein bestimmtes Item i

--> wenn alle das Item gleich lösen, ist die Varianz = 0

--> in der Praxis wird i.d.R. die Standardabweichung berichtet

Wie zeichnet sich der Zusammenhang zwischen Itemschwierigkeit und Item-Varianz aus?

- ist das Item extrem leicht oder extrem schwer, ist die Varianz am kleinsten

- größter Differenzierungsgrad / Varianz bei mittelschweren Items

--> bei dichotomen Items ist der Zusammenhang kurvilinear

------> heißt, er entspricht einer quadrierten Funktion

Was ist die Item-Trennschärfe?

= Maß dafür, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt / differenziert

- Korrelation zwischen Item i und Gesamttest

-----> Item-to-Total-Correlation

Wofür braucht man die part-whole-Korrektur?

- Berechnung der Trennschärfe eines Items

--> betrachtetes Item aus Gesamttest entfernen, da es sonst mit sich selbst korrelieren würde (Ergebnisverzerrung)

---> alle Items sollten dafür dasselbe Merkmal messen = Gültigkeit Eindimensionales Messmodell

Wie berechnet man die Item-Trennschärfe?

Kovarianz zwischen dem betrachteten Item und der 1. Subskala (ohne betrachtetes Item) geteilt durch seine Standardabweichung*Standardabweichung der Subskala (ohne das betrachtete Item)

Bsp: Kovarianz = 1.604, Item-SD = 1.45, Subskala-SD = 1.26

---> 1.604 / (1.45*1.26)

Interpretation der Trennschärfe

- nahe 1: differenziert gut (Probanden mit hoher Merkmalsausprägen lösen es)

- nahe 0: ist ungeeignet, misst vielleicht etwas anderes

- nahe -1: Probanden niedriger Ausprägung lösen es - vielleicht vergessen umzupolen?

- in R-Output mit part-whole-Korrektur: r.drop

- in R-Output ohne part-whole: raw.r

Testtheorie und Testkonstruktion - 2. Termin

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google