Testtheorie und Testkonstruktion - 4. Termin
PHB WS18/19
PHB WS18/19
Fichier Détails
Cartes-fiches | 40 |
---|---|
Utilisateurs | 12 |
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 14.02.2019 / 23.06.2021 |
Lien de web |
https://card2brain.ch/box/20190214_testtheorie_und_testkonstruktion_4_termin
|
Intégrer |
<iframe src="https://card2brain.ch/box/20190214_testtheorie_und_testkonstruktion_4_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Item-Response-Theorie
- AV jetzt dichotom, wie in der logistischen Regression
--> Wahrscheinlichkeit = 1 - Gegenwahrscheinlichkeit
--> P(Yi=1) = 1 - P(Yi=0)
Itemschwierigkeit in der Item-Response-Theorie (IRT)
= deskriptives Maß für dichotome Variablen
= Wahrscheinlichkeit, mit der ein Item gelöst wird
= "Leichtigkeit"
- durch Wahrscheinlichkeit der Kategorie P(Yi=1) gekennzeichnet
- je größer P(Yi=1), desto leichter fällt es der Person dem Item in Sinne der Merkmalsausprägung zuzustimmen / zu antworten
- kann anhand der Stichprobendaten erwartungstreu geschätzt werden
Item-Varianz und Standardabweichung in der IRT
= Produkt der Wahrscheinlichkeiten der beiden Kategorien -> P(Y=1)*P(Y=0)
- größer, je ähnlicher die beiden Wahrscheinlichkeiten sich sind
--> maximal .25
- Funktion von Erwartungswert und Itemschwierigkeit -> mittelschwer erzeugt größte Varianz
- empirische Varianz nicht erwartungstreu
--> in Stichprobe geschätzt anhand von Formel n / (n-1)
- meist in Standardabweichungen angegeben
Welches Zusammenhangsmaß ist dem Phi-Koeffizienten (Pendant zur Produkt-Moment-Korrelation in der IRT) vorzuziehen und warum?
...das Assoziationsmaß Yules-Q / gamma-Koeffizient
- besonders geeignet, wenn Items sich in Bezug auf ihre Schwierigkeiten auf gemeinsamen Konstrukt anordnen lassen
--> differenziert gut bei unterschiedlich schweren Items
--> wenn 50% lösen/ nicht lösen: gamma = 1
Phi: wird nur dann 1, wenn man annimmt, alle Items wären gleich schwer / alle Werte wären gleich wahrscheinlich / beide Randverteilungen wären identisch
---> unrealistisch
APA: Die Korrelation zwischen Variablen A & B beträgt gamma = 0.875, 95% CI [0.742, 1].
Durch welche Annahmen wird das Rasch-Modell definiert?
1. Rasch-Homogenität
2. Bedingte / lokale stochastische Unabhängigkeit
Was versteht man unter Rasch-Homogenität?
Was versteht man unter bedingter / lokaler stichastischer Unabhängigkeit?
= über das latente Konstrukt hinaus bestehen keine Zusammenhänge zwischen den beobachteten Variablen
(--> bei Auspartialisieren des Konstrukts keine Zusammenhänge mehr)
- Für jede Ausprägung der latenten Variable eta sind die beobachteten Variablen Yi stochastisch unabhängig
---> die latente Variable erklärt also alle Zusammenhänge zw den p beobachteten Variablen
Was macht Itemcharakteristikkurven im Rasch-Modell aus?
- unterscheiden sich nur hinsichtlich ihrer Lage, nicht ihrer Form
---> sind parallel, haben dieselbe Steigung
- je größer aplhai, desto schwerer das Item und desto weiter rechts die Kurve
- Personenparameter und Itemschwierigkeit haben gleiche Dimension, man kann also sagen, dass:
Wahrscheinlichkeit, dass Person das Item löst = etam - alphai ---> siehe Grafik
Kann man das Rasch-Modell auch einer Logit-Transformation unterziehen?
JA!
- um die AV metrisch zu machen und einfacher zu interpretieren
- verhält sich genauso wie die logistische Regression
Normierung der latenten Variablen
- latente Variable nicht eindeutig bestimmt (wie im tau-äquivalenten Modell) und muss in konkreter Anwendung "normiert" werden
--> dann hat Modell klare Metrik und ist besser zu schätzen
3 Möglichkeiten:
1. Parameter des ersten Items auf beliebigen Wert fixieren
2. Erwartungswert der latenten Variablen auf beliebigen Wert fixieren (default in vielen Statistik-Programmen)
3. Summe aller Itemparameter auf einen Wert festlegen
Was versteht man unter spezifischer Objektivität?
besondere Eigenschaft des Messmodells
- Vergleiche zwischen zwei Personen m und o hängen nicht von dem betrachteten Item ab, sondern sind für alle Itemsi gleich
--> Vergleich zweier Messobjekte unabhängig vom Messinstrument
- Vergleiche zwischen zwei Items i und j hängen nicht von der betrachteten Person ab
--> Vergleiche zweier Messinstrumente sind unabhängig vom Messobjekt
Was bedeutet der Summenwert als suffiziente Statistik?
besondere Eigenschaft des Messmodells
= die Summe der gelösten Aufgaben / bejahten Items ist ein erschöpfender suffizienter Schätzwert für den Personenwert etam
--> es kommt nur darauf an, wie viele Items gelöst wurden, nicht aber welche
--> entspricht essenziell tau-äquivalenter Ansicht
Welche drei Verfahren zur Parameterschätzung werden behandelt?
1. Unbedingte (gemeinsame) Maximum-Likelihood-Schätzung
2. Bedingte Maximum-Likelihood-Schätzung
3. Marginale-Maximum-Likelihood-Schätzung
Wie funktioniert die unbedingte ML-Methode und was sind ihre Probleme?
- Itemparameter und Personenwerte werden gemeinsam basierend auf beobachteter Datenmatrix geschätzt
- iteratives Verfahren, bei dem die Likelihood-Funktion maximiert wird
methodische Probleme:
- Item- und Personenparameter nur dann konsistent geschätzt, wenn Anzahl der Personen und Items asymptotisch sind / Richtung unendlich streben
Wie lautet die Alternative zur unbedingten ML-Methode?
Schrittweise Anwendung von ML-Verfahren (Schritt 2 setzt Schritt 1 voraus)
1. Schritt: Schätzung der Itemparameter
- Bedingte ML-Methode - baut darauf auf, dass S eine suffiziente Statistik für den Personenparameter ist (Itemparameter können unabhängig vom Personenparameter geschätzt werden)
- Marginale ML-Methode - Item- und Personenparameter auch unabhängig voneinander geschätzt (setzt allerdings Annahme über Verteilung wie Normalverteilung der Personenparameter voraus)
2. Schritt: Schätzung der Personenparameter
- unbedingte ML-Methode - Itemparameter werden in Likelihood-Gleichung eingesetzt (Nachteil: keine Schätzwerte für Personen die kein oder alle Items lösen)
- Gewichtete ML-Methode - Methode der Wahl
Die Itemschwierigkeit für eine Person mit eta = -1 liegt bei 0.5
--> Iteminformation entspricht Itemvarianz
---> Itemvarianz = Wahrscheinlichkeit*Gegenwahrscheinlichkeit
-----> 0.25 = 0.5*0.5
-------> Wahrscheinlichkeit des "Lösens" entspricht Intemschwierigkeit
Mit welchem Befehl lässt man sich in R Standardfehler und Konfidenzintervalle ausgeben?
- Standardfehler: printSE = TRUE
- Konfidenzintervalle: printCI = TRUE
Wovon hängt der Standardfehler der Personenwerte ab?
1. Anzahl der Items
- je mehr Items, desto präziser die Schätzung von Personenwerten
2. Passung von Item- und Personenparameter
- je mehr Items, deren Schwierigkeit in der Nähe des zu schätzenden Personenparameters liegen (nahe der 50/50 Lösung), desto größer die Schätzgenauigkeit
----> Fehler umso kleiner, je größer die Testinformation an der Stelle des geschätzten Personenparameters ist
----> theoretischer Minimalwert ist 1 / Wurzel aus (p*0.25) = 0.632 (bei p=10)
Was bedeutet adaptives Testen?
- Der Person werden sukzessive (computerbasiert) Items dargeboten, deren Schwierigkeit möglichst nah am Personenwert liegt / die dynamisch an die Leistungen der Person angepasst werden
--> Items tragen so maximal zur Schätzung des Personenwerts bei
- Personenwert nach jeder Antwort neu geschätzt, bis vorher festgelegtes Maß an Präzision erreicht ist
- Voraussetzung ist eine "Itembank" mit Rasch-homogenen Items verschiedener Schwierigkeitsgrade
Welche Konsequenzen / Annahmen des Rasch Modells testet man, um dessen Modellgültigkeit zu prüfen?
1. Gleichheit der Itemparameter in Subpopulationen
- Sind einige Items für eine bestimmte Subgruppe leichter zu lösen als andere?
2. Wahrscheinlichkeitsverteilung der Antwortmuster und globale Modellgültigkeit
- Antworten einige Personen nicht auf Basis ihres Personenwerts sondern nach einem bestimmten Muster?
---------------------------von uns nicht behandelt, aber der Vollständigkeit halber aufgeführt-------------------------------
3. Gleichheit der Personen in Testhälften
4. Unkorrelierte Residuen
Gleichheit der Itemparameter in Subpopulationen
- bei bekannten Subpopulationen (z.B. Männer und Frauen) werden Itemparameter anhand der jeweiligen Substichproben geschätzt und verglichen
--> Likelihood-Ratio-Test
--> item-spezifischer Wald-Test
Likelihood-Ratio-Test
- zwei bedingte Likelihoods werden miteinander verglichen
- Prüfgröße ist Chi²
- informationstheoretische Maße verknüpfen Anpassungsgüte und Sparsamkeit des Modells
--> Parsimonitätsprinzip
--> Ziel: möglichst gute Passung / große Likelihood, bei möglichst wenigen Parametern / großer Sparsamkeit
--> Auch für Vergleiche nicht genesteter Modelle
--> häufigste Maße: Akaikes Information Criterion (AIC) und Bayes Information Criterion (BIC)
-----> Modell mit geringerem Wert bevorzugen
Itemspezifischer Wald-Test
= überprüft Hypothese, dass sich ein einzelner Parameter nicht zwischen Subpopulationen unterscheidet
= wenn signifikant, dann ist das Item "unfair" einer Subpopulation gegenüber
- vergleicht geschätzten Itemparameter aus beiden verglichenen Stichproben
--> quadrierter z-Wert der geschätzten Itemparameter geteilt durch Summe der Standardfehler
---> p-Wert sollte Bonferroni-Korrektur unterzogen werden
- wird für jedes Item einzeln durchgeführt
Gleichheit der Itemparameter in unbekannten Substichproben
- unbekannte latente Klasse, die sich in Itemparametern unterscheidet und für die Rasch-Modell gilt
= wir wissen nicht, dass z.B. Geschlecht der latente Faktor ist, das Antwortverhalten beeinflusst
- Lösung: Mischverteilungs-Rasch-Analyse
-----------> exploratives Vorgehen
-----------> konfirmatorisches Vorgehen
Modellgültigkeit anhand der Antwortmuster
Probleme des Pearson-Chi²-Tests
- sehr stichprobenabhängig
--> es muss eine große Stichprobe vorliegen, damit sie Chi² verteilt ist
- Anzahl der möglichen Antwortmuster wächst exponentiell mit Anzahl der Items
---> weniger Antwortmuster in kleinen Stichproben
------> PE-Prüfgröße in der Anwendung nicht Chi² verteilt
Was ist eine Alternative zum Pearson-Chi²-Test?
= M2-Statistik
- berücksichtigt nicht die Wahrscheinlichkeit aller Antwortmuster ("full information statistic"), sondern basiert nur auf den univariaten und bivariaten Itemkennwerten ("limited information statistic")
- bei großen und kleinen Stichproben Chi²-verteilt!
- sollte nicht signifikant werden, da wir ja keine Unterschiede zwischen erwartetem und beobachtetem Antwortmuster wollen
Was tun bei mangelnder Modellgüte?
- um Rasch-Modell beibehalten zu können, müsste man post-hoc unpassende Items und Personen ausschließen
---> gut für weitere Verbesserung von Testkonstruktion, aber super aufwendig
- wie bedeutsam sind die Modellabweichungen? Wie stark sind die Konsequenzen vor dem Hintergrund unsers Ziels?
- hilfreich ist dann ein Modellvergleich mit weniger restriktiven Modellen (2-PL-Modell zum Beispiel)
MERKE: konnte das Rasch-Modell nicht verworfen werden, kann das auch an mangelnder Power liegen
Zweiparametrisches logistisches Modell - 2-PL-Modell - Birnbaum-Modell
Was definiert den Diskriminationsparameter inhaltlich?
- je höher betai, desto steiler die Kurve -> Steigung der Itemcharakteritikkurve an deren Wendepunkt (.50)
- je höher betai, desto deutlicher wirken sich die Unterschiede zwischen Personen auf der latenten Variablen aus
---> Items "diskriminieren" dann besser zwischen den Merkmalsunterschieden
- gleicht konzeptuell dem Diskriminationsparameter aus Modell mit tau-kongenerischen Variablen
Wie können abweichende Items und abweichende Personen im Rasch-Modell identifiziert werden?
...anhand von Residualmaßen
(siehe Eid - glaube er könnte AIC und BIC damit meinen)
Was sind Unterschiede zwischen 2-PL und Rasch-Modell?
- Itemcharakteristikkurven können sich schneiden
- spezifische Objektivität nicht mehr gegeben
---> Vergleich zweier Items in Bezug auf Schwierigkeit hängt von Person ab
- Summenwert ist keine suffiziente Statistik mehr
- Parameter können nicht mehr mit der bedingten, sondern nur mit der marginalen oder unbedingten ML-Methode geschätzt werden
- Identifikation: Zur Normierung muss entweder der Diskriminationsparameter oder die Varianz der latenten Variablen auf einen positiven Wert festgelegt werden
Das Ergebnis des M2-Tests zeigt an, dass das 2-PL-Modell sehr gut auf die Daten passt, Chi² (5) = 3.731, p = .589, RMSEA = 0, 95% CI [0, 09], TLI = 1.028, CFI = 1, SRMR = 0.052.
-> Das Rasch-Modell kann ganz beruhigt verworfen werden