Testtheorie und Testkonstruktion - 2. Termin
PHB WS18/19
PHB WS18/19
Kartei Details
Karten | 44 |
---|---|
Lernende | 12 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 12.02.2019 / 12.08.2021 |
Weblink |
https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Bestimmung der Test-Reliabilität bei essenziell tau-äquivalenten Modellen
- cronbachs-alpha
- auf Basis einer Summenvariable S
---> alle Items müssen gleich gewichtet sein!
- semTools::reliability(fit)["alpha",]
----> eta und total / Gesamtreliabilität gleich, da es nur eine latente Variable gibt
----> ab .70 supi
Annahmen essenziell tau-paralleler Modelle
- jede beobachtete Variable lässt sich in eine True-Score-Variable und eine Messfehlervariable zerlegen
- die True-Score-Variablen sind bis auf eine additive Konstante (alpha / Itemschwierigkeit) identisch -> daher essenziell
- Messfehlervariablen ei und ej sind unkorreliert
--------------------------------------------------neu hinzukommend---------------------------------------------------------------------------------------
- Messfehlervarianzen sind identisch für verschiedene Items (tau-parallel)
---> wir gewinnen dadurch 2 zusätzlich Freiheitsgrade
INFO:
- streng parellel = alle Items messen genau gleich - gleiche "Messgenauigkeit", gleiche Reliabilität
- essenziell-parallel = ein Item darf anders sein (sehr ökonomische Methode, da Items austauschbar sind)
Modellspezifikation essenziell tau-paralleler Modelle in R
ess.parallel <- 'eta =~ 1*Q1 + 1*Q6 + 1*Q11,
Q1 ~~ eps*Q1
Q6 ~~ eps*Q6
Q11~~ eps*Q11'
Bestimmung der Reliabilität bei essenziell tau-parallelen Modellen
1. nach Formel, wie für tau-äquivalente Reliabilität
2. Convenience Funktion: inspect(fit, "rsquare")
---> in beiden Fällen gleiche Reliabilität für alle drei Items
------> Testverlängerung praktisch
Wozu dient die Testverlängerung?
= zur Erhöhung der Präzision unserer Messung
- durch Summierung von mehreren Items
Ich: "Wie viele Items brauche ich denn, um die Präzision meiner Messung zu erhöhen?"
Spearman-Brown: "Warum hast du mich das nicht gleich gefragt..."
Annahmen des Messmodells mit tau-kongenerischen Variablen
- beobachtete Variable in True-Score-Variable und Messfehlervariable zerlegt
- Messfehlervariablen ei und ej sind unkorreliert
--------------------------------------------nur hier--------------------------------------------------------
- die True-Score-Variablen sind lineare Transformationen voneinander
---> Bsp.: Umrechnung von Fahrenheit in Celsius
- Itemschrierigkeit und Trennschärfe sind unterschiedlich
- True-Score und Fehlervarianz sind gleich
---> bei einigen Items werden Fähigkeiten schneller entdeckt, als bei anderen
------> Faktorladungen verschieden (Lambda)
Modelspezifikation des tau-kongenerischen Modells in R
kongener <- 'eta1 =~ 1*Q1 + Q6 + Q11'
Modellidentifikation tau-kongenerischer Modelle
Ein tau-kongenerisches Modell mit 3 Indikatoren weist immer einen perfekten Fit / saturierte Identifikation auf
-> nicht restriktiv genug
-> mindestens 4 Indikatoren notwendig, um testbare Konsequenzen aufzudecken
Mit welchem Maß erfolgt die Bestimmung der Reliabilität bei tau-kongenerischen Modellen?
- cronbachs-alpha ist hier zu ungenau
--> repräsentiert nur die untere Grenze der Reliabilität
-----> McDonalds omega ist das Reliabilitätsmaß der Wahl
Wie ist die Itemschwierigkeit bei dichotomen Antwortvariablen definiert?
= Wahrscheinlichkeit, mit der die Variable den Wert 1 annimmt
Zusammenfassend: Was variiert je nach Messmodell?
- Faktorladung
- Leichtigkeitsparameter
- Fehlervarianzen
- Reliabilität
--> bei allen: Kovarianzen der Fehler = 0
----> sonst könnte ein anderer Faktor dahinter liegen!
Welche vier Eigenschaften weisen die Fehlervariablen εi und die True-Score-Variablen τi in der KTT auf?
1. Der Erwartungswert einer Messfehlervariable ist für jede Ausprägung der True-Score-Variable = 0
2. Der unbedingte Erwartungswert einer Messfehlervariable = 0
3. Messfehler- und True-Score-Variablen sind unkorreliert
4. Die Varianz einer beobachteten Variable lässt sich additiv zerlegen in die Varianz der True-Score-Variable und in die Varianz der Messfehler-Variable
Wie ist die Reliabilität in der KTT definiert?
= Rel(Yi) ist der Anteil der wahren Varianz an der Gesamtvarianz einer beobachteten Variablen
- Wie zuverlässig können interindividuelle Merkmalsunterschiede erfasst werden?
- kann Werte zwischen 0 (schlecht, Unterschiede sind messfehlerbedingt)
und 1 (supi, beobachtete Unterschiede sind auf "wahre" Merkmalsunterschiede zurückzuführen) annehmen
---> je kleiner der Messfehler, desto höher die Reliabilität
- in homogenen Stichproben ist die Reliabilität meist geringer als in heterogenen, da geringere Varianz wahrer Werte
----> wir sollten also zusätzlich die Messfehlervarianz berechnen
Welche Verfahren zur empirischen Bestimmung der Reliabilität gibt es?
- das Merkmal muss mindestens zweimal gemessen werden
- weitere Annahmen bezüglich des zugrundeliegenden Messmodells müssen getroffen werden
Aber wie..?
1. Testwiederholungsmethode
2. Paralleltestmethode
3. Testhalbierungsmethode
Unter welchen Umständen ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilität?
Wenn sich der beobachtete Wert des Gesamttests in zwei parallele Messwerte aufspalten lässt.
--> Modell paralleler Messungen
Welche Verfahren zur Bestimmung der wahren Werte in der KTT gibt es?
1. klassische Verfahren
- basieren auf Konzeption der wahren Werte (True-Score-Variablen)
2. modellbasierte Verfahren
- basieren auf konkretem psychometrischem Modell und verwenden die vorliegenden Items zur Schätzung der wahren Werte
---> da wahre Werte stets nur geschätzt werden, sind sie mit gewisser Unsicherheit behaftet und sollten daher mittels Konfidenzintervall interpretiert werden
Was macht das klassische Verfahren zur Bestimmung wahrer Werte in der KTT aus?
- beobachtete Werte werden als Schätzerwerte für die wahren Werte genutzt
--> zulässig, da der personenbedingte Erwartungswert einer Variablen gleich dem wahren Wert ist
--> wie präzise der wahre Wert geschätzt werden kann hängt von der Fehlervarianz ab (große Fehlervarianz = unpräzise)
------> Konfidenzintervall zur Bestimmung der Präzision
Was macht die modellbasierten Verfahren zur Schätzung des wahren Werts aus?
Sie unterscheiden sich darin, wie die Faktorwerte (wahre Werte) und deren Standardfehler geschätzt werden
--> In R (lavaan) können diese mit der lavPredict Funktion bestimmt werden
Was ist der Standardschätzfehler und wofür benötigt man ihn in der psychodiagnostischen Praxis?
Was ist die Itemschwierigkeit?
= Pi
= Popularitätsindex
= Itemleichtigkeit
- entspricht dem Anteil der Personen, die das Item richtig lösen oder bejahen
--> das Mininum von Pi ist hierbei der niedrigste Wert, der angekreuzt wurde (kann auf einer Skala von 1 - 5 also auch die 2 sein)
--> mittlere Schwierigkeiten (50%) sind zu bevorzugen, unter 20% und über 80% Pi werden Items i.d.R. ausgeschlossen
Was ist die Item-Varianz?
= Differenzierungsindex eines Items
= Ausmaß der interindividuellen Unterschiede im Antwortverhalten der Probanden für ein bestimmtes Item i
--> wenn alle das Item gleich lösen, ist die Varianz = 0
--> in der Praxis wird i.d.R. die Standardabweichung berichtet
Wie zeichnet sich der Zusammenhang zwischen Itemschwierigkeit und Item-Varianz aus?
Was ist die Item-Trennschärfe?
= Maß dafür, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt / differenziert
- Korrelation zwischen Item i und Gesamttest
-----> Item-to-Total-Correlation
Wofür braucht man die part-whole-Korrektur?
- Berechnung der Trennschärfe eines Items
--> betrachtetes Item aus Gesamttest entfernen, da es sonst mit sich selbst korrelieren würde (Ergebnisverzerrung)
---> alle Items sollten dafür dasselbe Merkmal messen = Gültigkeit Eindimensionales Messmodell
Wie berechnet man die Item-Trennschärfe?
Kovarianz zwischen dem betrachteten Item und der 1. Subskala (ohne betrachtetes Item) geteilt durch seine Standardabweichung*Standardabweichung der Subskala (ohne das betrachtete Item)
Bsp: Kovarianz = 1.604, Item-SD = 1.45, Subskala-SD = 1.26
---> 1.604 / (1.45*1.26)
Interpretation der Trennschärfe
- nahe 1: differenziert gut (Probanden mit hoher Merkmalsausprägen lösen es)
- nahe 0: ist ungeeignet, misst vielleicht etwas anderes
- nahe -1: Probanden niedriger Ausprägung lösen es - vielleicht vergessen umzupolen?
- in R-Output mit part-whole-Korrektur: r.drop
- in R-Output ohne part-whole: raw.r
-
- 1 / 44
-