Testtheorie und Testkonstruktion - 4. Termin
PHB WS18/19
PHB WS18/19
Kartei Details
Karten | 40 |
---|---|
Lernende | 12 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 14.02.2019 / 23.06.2021 |
Weblink |
https://card2brain.ch/box/20190214_testtheorie_und_testkonstruktion_4_termin
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190214_testtheorie_und_testkonstruktion_4_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Gleichheit der Itemparameter in Subpopulationen
- bei bekannten Subpopulationen (z.B. Männer und Frauen) werden Itemparameter anhand der jeweiligen Substichproben geschätzt und verglichen
--> Likelihood-Ratio-Test
--> item-spezifischer Wald-Test
Likelihood-Ratio-Test
- zwei bedingte Likelihoods werden miteinander verglichen
- Prüfgröße ist Chi²
- informationstheoretische Maße verknüpfen Anpassungsgüte und Sparsamkeit des Modells
--> Parsimonitätsprinzip
--> Ziel: möglichst gute Passung / große Likelihood, bei möglichst wenigen Parametern / großer Sparsamkeit
--> Auch für Vergleiche nicht genesteter Modelle
--> häufigste Maße: Akaikes Information Criterion (AIC) und Bayes Information Criterion (BIC)
-----> Modell mit geringerem Wert bevorzugen
Itemspezifischer Wald-Test
= überprüft Hypothese, dass sich ein einzelner Parameter nicht zwischen Subpopulationen unterscheidet
= wenn signifikant, dann ist das Item "unfair" einer Subpopulation gegenüber
- vergleicht geschätzten Itemparameter aus beiden verglichenen Stichproben
--> quadrierter z-Wert der geschätzten Itemparameter geteilt durch Summe der Standardfehler
---> p-Wert sollte Bonferroni-Korrektur unterzogen werden
- wird für jedes Item einzeln durchgeführt
Gleichheit der Itemparameter in unbekannten Substichproben
- unbekannte latente Klasse, die sich in Itemparametern unterscheidet und für die Rasch-Modell gilt
= wir wissen nicht, dass z.B. Geschlecht der latente Faktor ist, das Antwortverhalten beeinflusst
- Lösung: Mischverteilungs-Rasch-Analyse
-----------> exploratives Vorgehen
-----------> konfirmatorisches Vorgehen
Modellgültigkeit anhand der Antwortmuster
Probleme des Pearson-Chi²-Tests
- sehr stichprobenabhängig
--> es muss eine große Stichprobe vorliegen, damit sie Chi² verteilt ist
- Anzahl der möglichen Antwortmuster wächst exponentiell mit Anzahl der Items
---> weniger Antwortmuster in kleinen Stichproben
------> PE-Prüfgröße in der Anwendung nicht Chi² verteilt
Was ist eine Alternative zum Pearson-Chi²-Test?
= M2-Statistik
- berücksichtigt nicht die Wahrscheinlichkeit aller Antwortmuster ("full information statistic"), sondern basiert nur auf den univariaten und bivariaten Itemkennwerten ("limited information statistic")
- bei großen und kleinen Stichproben Chi²-verteilt!
- sollte nicht signifikant werden, da wir ja keine Unterschiede zwischen erwartetem und beobachtetem Antwortmuster wollen
Was tun bei mangelnder Modellgüte?
- um Rasch-Modell beibehalten zu können, müsste man post-hoc unpassende Items und Personen ausschließen
---> gut für weitere Verbesserung von Testkonstruktion, aber super aufwendig
- wie bedeutsam sind die Modellabweichungen? Wie stark sind die Konsequenzen vor dem Hintergrund unsers Ziels?
- hilfreich ist dann ein Modellvergleich mit weniger restriktiven Modellen (2-PL-Modell zum Beispiel)
MERKE: konnte das Rasch-Modell nicht verworfen werden, kann das auch an mangelnder Power liegen
Zweiparametrisches logistisches Modell - 2-PL-Modell - Birnbaum-Modell
Was definiert den Diskriminationsparameter inhaltlich?
- je höher betai, desto steiler die Kurve -> Steigung der Itemcharakteritikkurve an deren Wendepunkt (.50)
- je höher betai, desto deutlicher wirken sich die Unterschiede zwischen Personen auf der latenten Variablen aus
---> Items "diskriminieren" dann besser zwischen den Merkmalsunterschieden
- gleicht konzeptuell dem Diskriminationsparameter aus Modell mit tau-kongenerischen Variablen
Wie können abweichende Items und abweichende Personen im Rasch-Modell identifiziert werden?
...anhand von Residualmaßen
(siehe Eid - glaube er könnte AIC und BIC damit meinen)
Was sind Unterschiede zwischen 2-PL und Rasch-Modell?
- Itemcharakteristikkurven können sich schneiden
- spezifische Objektivität nicht mehr gegeben
---> Vergleich zweier Items in Bezug auf Schwierigkeit hängt von Person ab
- Summenwert ist keine suffiziente Statistik mehr
- Parameter können nicht mehr mit der bedingten, sondern nur mit der marginalen oder unbedingten ML-Methode geschätzt werden
- Identifikation: Zur Normierung muss entweder der Diskriminationsparameter oder die Varianz der latenten Variablen auf einen positiven Wert festgelegt werden
Das Ergebnis des M2-Tests zeigt an, dass das 2-PL-Modell sehr gut auf die Daten passt, Chi² (5) = 3.731, p = .589, RMSEA = 0, 95% CI [0, 09], TLI = 1.028, CFI = 1, SRMR = 0.052.
-> Das Rasch-Modell kann ganz beruhigt verworfen werden
Item-Response-Theorie
- AV jetzt dichotom, wie in der logistischen Regression
--> Wahrscheinlichkeit = 1 - Gegenwahrscheinlichkeit
--> P(Yi=1) = 1 - P(Yi=0)
Itemschwierigkeit in der Item-Response-Theorie (IRT)
= deskriptives Maß für dichotome Variablen
= Wahrscheinlichkeit, mit der ein Item gelöst wird
= "Leichtigkeit"
- durch Wahrscheinlichkeit der Kategorie P(Yi=1) gekennzeichnet
- je größer P(Yi=1), desto leichter fällt es der Person dem Item in Sinne der Merkmalsausprägung zuzustimmen / zu antworten
- kann anhand der Stichprobendaten erwartungstreu geschätzt werden
Item-Varianz und Standardabweichung in der IRT
= Produkt der Wahrscheinlichkeiten der beiden Kategorien -> P(Y=1)*P(Y=0)
- größer, je ähnlicher die beiden Wahrscheinlichkeiten sich sind
--> maximal .25
- Funktion von Erwartungswert und Itemschwierigkeit -> mittelschwer erzeugt größte Varianz
- empirische Varianz nicht erwartungstreu
--> in Stichprobe geschätzt anhand von Formel n / (n-1)
- meist in Standardabweichungen angegeben
Welches Zusammenhangsmaß ist dem Phi-Koeffizienten (Pendant zur Produkt-Moment-Korrelation in der IRT) vorzuziehen und warum?
...das Assoziationsmaß Yules-Q / gamma-Koeffizient
- besonders geeignet, wenn Items sich in Bezug auf ihre Schwierigkeiten auf gemeinsamen Konstrukt anordnen lassen
--> differenziert gut bei unterschiedlich schweren Items
--> wenn 50% lösen/ nicht lösen: gamma = 1
Phi: wird nur dann 1, wenn man annimmt, alle Items wären gleich schwer / alle Werte wären gleich wahrscheinlich / beide Randverteilungen wären identisch
---> unrealistisch
APA: Die Korrelation zwischen Variablen A & B beträgt gamma = 0.875, 95% CI [0.742, 1].
Durch welche Annahmen wird das Rasch-Modell definiert?
1. Rasch-Homogenität
2. Bedingte / lokale stochastische Unabhängigkeit
Was versteht man unter Rasch-Homogenität?
Was versteht man unter bedingter / lokaler stichastischer Unabhängigkeit?
= über das latente Konstrukt hinaus bestehen keine Zusammenhänge zwischen den beobachteten Variablen
(--> bei Auspartialisieren des Konstrukts keine Zusammenhänge mehr)
- Für jede Ausprägung der latenten Variable eta sind die beobachteten Variablen Yi stochastisch unabhängig
---> die latente Variable erklärt also alle Zusammenhänge zw den p beobachteten Variablen
Was macht Itemcharakteristikkurven im Rasch-Modell aus?
- unterscheiden sich nur hinsichtlich ihrer Lage, nicht ihrer Form
---> sind parallel, haben dieselbe Steigung
- je größer aplhai, desto schwerer das Item und desto weiter rechts die Kurve
- Personenparameter und Itemschwierigkeit haben gleiche Dimension, man kann also sagen, dass:
Wahrscheinlichkeit, dass Person das Item löst = etam - alphai ---> siehe Grafik
Kann man das Rasch-Modell auch einer Logit-Transformation unterziehen?
JA!
- um die AV metrisch zu machen und einfacher zu interpretieren
- verhält sich genauso wie die logistische Regression
Normierung der latenten Variablen
- latente Variable nicht eindeutig bestimmt (wie im tau-äquivalenten Modell) und muss in konkreter Anwendung "normiert" werden
--> dann hat Modell klare Metrik und ist besser zu schätzen
3 Möglichkeiten:
1. Parameter des ersten Items auf beliebigen Wert fixieren
2. Erwartungswert der latenten Variablen auf beliebigen Wert fixieren (default in vielen Statistik-Programmen)
3. Summe aller Itemparameter auf einen Wert festlegen
Was versteht man unter spezifischer Objektivität?
besondere Eigenschaft des Messmodells
- Vergleiche zwischen zwei Personen m und o hängen nicht von dem betrachteten Item ab, sondern sind für alle Itemsi gleich
--> Vergleich zweier Messobjekte unabhängig vom Messinstrument
- Vergleiche zwischen zwei Items i und j hängen nicht von der betrachteten Person ab
--> Vergleiche zweier Messinstrumente sind unabhängig vom Messobjekt
Was bedeutet der Summenwert als suffiziente Statistik?
besondere Eigenschaft des Messmodells
= die Summe der gelösten Aufgaben / bejahten Items ist ein erschöpfender suffizienter Schätzwert für den Personenwert etam
--> es kommt nur darauf an, wie viele Items gelöst wurden, nicht aber welche
--> entspricht essenziell tau-äquivalenter Ansicht
Welche drei Verfahren zur Parameterschätzung werden behandelt?
1. Unbedingte (gemeinsame) Maximum-Likelihood-Schätzung
2. Bedingte Maximum-Likelihood-Schätzung
3. Marginale-Maximum-Likelihood-Schätzung
Wie funktioniert die unbedingte ML-Methode und was sind ihre Probleme?
- Itemparameter und Personenwerte werden gemeinsam basierend auf beobachteter Datenmatrix geschätzt
- iteratives Verfahren, bei dem die Likelihood-Funktion maximiert wird
methodische Probleme:
- Item- und Personenparameter nur dann konsistent geschätzt, wenn Anzahl der Personen und Items asymptotisch sind / Richtung unendlich streben
-
- 1 / 40
-