PHB WS18/19


Set of flashcards Details

Flashcards 40
Students 12
Language Deutsch
Category Psychology
Level University
Created / Updated 14.02.2019 / 23.06.2021
Weblink
https://card2brain.ch/box/20190214_testtheorie_und_testkonstruktion_4_termin
Embed
<iframe src="https://card2brain.ch/box/20190214_testtheorie_und_testkonstruktion_4_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Item-Response-Theorie

- AV jetzt dichotom, wie in der logistischen Regression

--> Wahrscheinlichkeit = 1 - Gegenwahrscheinlichkeit

--> P(Yi=1) = 1 - P(Yi=0)

Itemschwierigkeit in der Item-Response-Theorie (IRT)

= deskriptives Maß für dichotome Variablen

= Wahrscheinlichkeit, mit der ein Item gelöst wird

= "Leichtigkeit"

- durch Wahrscheinlichkeit der Kategorie P(Yi=1) gekennzeichnet

- je größer P(Yi=1), desto leichter fällt es der Person dem Item in Sinne der Merkmalsausprägung zuzustimmen /  zu antworten

- kann anhand der Stichprobendaten erwartungstreu geschätzt werden

Item-Varianz und Standardabweichung in der IRT

= Produkt der Wahrscheinlichkeiten der beiden Kategorien -> P(Y=1)*P(Y=0)

- größer, je ähnlicher die beiden Wahrscheinlichkeiten sich sind

--> maximal .25

- Funktion von Erwartungswert und Itemschwierigkeit -> mittelschwer erzeugt größte Varianz

- empirische Varianz nicht erwartungstreu

--> in Stichprobe geschätzt anhand von Formel n / (n-1)

- meist in Standardabweichungen angegeben

Welches Zusammenhangsmaß ist dem Phi-Koeffizienten (Pendant zur Produkt-Moment-Korrelation in der IRT) vorzuziehen und warum?

...das Assoziationsmaß Yules-Q / gamma-Koeffizient

- besonders geeignet, wenn Items sich in Bezug auf ihre Schwierigkeiten auf gemeinsamen Konstrukt anordnen lassen

--> differenziert gut bei unterschiedlich schweren Items

--> wenn 50% lösen/ nicht lösen: gamma = 1

Phi: wird nur dann 1, wenn man annimmt, alle Items wären gleich schwer / alle Werte wären gleich wahrscheinlich / beide Randverteilungen wären identisch

---> unrealistisch

      

APA: Die Korrelation zwischen Variablen A & B beträgt gamma = 0.875, 95% CI [0.742, 1].

Durch welche Annahmen wird das Rasch-Modell definiert?

1. Rasch-Homogenität

2. Bedingte / lokale stochastische Unabhängigkeit

Was versteht man unter Rasch-Homogenität?

= alle beobachteten Variablen erfassen in homogener Weise das gleiche latente Merkmal = eindimensional

- Abhängigkeit der Wahrscheinlichkeiten P(Y=1Ieta) von der latenten Variable eta 

--> sind Personenfähigkeit eta und Itemschwierigkeit alphai gleich groß, dann löst die Person zu 50% das Item

Was versteht man unter bedingter / lokaler stichastischer Unabhängigkeit?

= über das latente Konstrukt hinaus bestehen keine Zusammenhänge zwischen den beobachteten Variablen

(--> bei Auspartialisieren des Konstrukts keine Zusammenhänge mehr)

- Für jede Ausprägung der latenten Variable eta sind die beobachteten Variablen Yi stochastisch unabhängig

---> die latente Variable erklärt also alle Zusammenhänge zw den p beobachteten Variablen

Was macht Itemcharakteristikkurven im Rasch-Modell aus?

- unterscheiden sich nur hinsichtlich ihrer Lage, nicht ihrer Form

---> sind parallel, haben dieselbe Steigung

- je größer aplhai, desto schwerer das Item und desto weiter rechts die Kurve

 

- Personenparameter und Itemschwierigkeit haben gleiche Dimension, man kann also sagen, dass:

Wahrscheinlichkeit, dass Person das Item löst = etam - alphai ---> siehe Grafik

 

Was macht eine Iteminformationsfunktion im Rasch-Modell aus?

- Iteminformation entspricht der bedingten Itemvarianz

- Item ist am informativsten, wenn Lösen und Nicht-Lösen gleich wahrscheinlich sind

Kann man das Rasch-Modell auch einer Logit-Transformation unterziehen?

JA!

- um die AV metrisch zu machen und einfacher zu interpretieren

- verhält sich genauso wie die logistische Regression

Normierung der latenten Variablen

- latente Variable nicht eindeutig bestimmt (wie im tau-äquivalenten Modell) und muss in konkreter Anwendung "normiert" werden

--> dann hat Modell klare Metrik und ist besser zu schätzen

3 Möglichkeiten:

1. Parameter des ersten Items auf beliebigen Wert fixieren

2. Erwartungswert der latenten Variablen auf beliebigen Wert fixieren (default in vielen Statistik-Programmen)

3. Summe aller Itemparameter auf einen Wert festlegen

Was versteht man unter spezifischer Objektivität?

besondere Eigenschaft des Messmodells

- Vergleiche zwischen zwei Personen m und o hängen nicht von dem betrachteten Item ab, sondern sind für alle Itemsi gleich

--> Vergleich zweier Messobjekte unabhängig vom Messinstrument

- Vergleiche zwischen zwei Items i und j hängen nicht von der betrachteten Person ab

--> Vergleiche zweier Messinstrumente sind unabhängig vom Messobjekt

Was bedeutet der Summenwert als suffiziente Statistik?

besondere Eigenschaft des Messmodells

= die Summe der gelösten Aufgaben / bejahten Items ist ein erschöpfender suffizienter Schätzwert für den Personenwert etam

--> es kommt nur darauf an, wie viele Items gelöst wurden, nicht aber welche

--> entspricht essenziell tau-äquivalenter Ansicht

Welche drei Verfahren zur Parameterschätzung werden behandelt?

1. Unbedingte (gemeinsame) Maximum-Likelihood-Schätzung

2. Bedingte Maximum-Likelihood-Schätzung

3. Marginale-Maximum-Likelihood-Schätzung

Wie funktioniert die unbedingte ML-Methode und was sind ihre Probleme?

- Itemparameter und Personenwerte werden gemeinsam basierend auf beobachteter Datenmatrix geschätzt

- iteratives Verfahren, bei dem die Likelihood-Funktion maximiert wird

methodische Probleme:

- Item- und Personenparameter nur dann konsistent geschätzt, wenn Anzahl der Personen und Items asymptotisch sind / Richtung unendlich streben

Wie lautet die Alternative zur unbedingten ML-Methode?

Schrittweise Anwendung von ML-Verfahren (Schritt 2 setzt Schritt 1 voraus)

1. Schritt: Schätzung der Itemparameter

- Bedingte ML-Methode - baut darauf auf, dass S eine suffiziente Statistik für den Personenparameter ist (Itemparameter können unabhängig vom Personenparameter geschätzt werden)

- Marginale ML-Methode - Item- und Personenparameter auch unabhängig voneinander geschätzt (setzt allerdings Annahme über Verteilung wie Normalverteilung der Personenparameter voraus)

2. Schritt: Schätzung der Personenparameter

- unbedingte ML-Methode - Itemparameter werden in Likelihood-Gleichung eingesetzt (Nachteil: keine Schätzwerte für Personen die kein oder alle Items lösen)

- Gewichtete ML-Methode - Methode der Wahl

Wie groß ist die Itemschwierigkeit, wenn die beobachtete Person einen Personenparameter von -1 auf folgender Grafik der Iteminformationsfunktion (Rasch)  hat?

Die Itemschwierigkeit für eine Person mit eta = -1 liegt bei 0.5

--> Iteminformation entspricht Itemvarianz

---> Itemvarianz = Wahrscheinlichkeit*Gegenwahrscheinlichkeit

-----> 0.25 = 0.5*0.5

-------> Wahrscheinlichkeit des "Lösens" entspricht Intemschwierigkeit

 

Wo steht was im R-Output zur IRT?

MERKE:

- hat eine Person nun den gleichen Parameterwert wie die Itemschwierigkeit, ist das Ergebnis 50/50 und der Informationsgehalt/Varianz des Items maximal.

---> für Freude bräuchte es dafür also einen Personenparameter von -2.955

 

Mit welchem Befehl lässt man sich in R Standardfehler und Konfidenzintervalle ausgeben?

- Standardfehler: printSE = TRUE

- Konfidenzintervalle: printCI = TRUE

Testinformationsfunktion Rasch-Modell

= [l(eta)]

- gibt an, wie viel Information in den Daten zur Schätzung eines Parameters enthalten ist

- l(eta) entspricht der Summe der Iteminformationen (bedingte Itemvarianzen)

Wann ist der Standardfehler der Personenwerte am geringsten?

Dort wo der Test am meisten Informationen liefert (siehe Testinformationskurve), lässt sich auch der Personenparameter am besten schätzen

Wovon hängt der Standardfehler der Personenwerte ab?

1. Anzahl der Items

- je mehr Items, desto präziser die Schätzung von Personenwerten

2. Passung von Item- und Personenparameter

- je mehr Items, deren Schwierigkeit in der Nähe des zu schätzenden Personenparameters liegen (nahe der 50/50 Lösung), desto größer die Schätzgenauigkeit

 

----> Fehler umso kleiner, je größer die Testinformation an der Stelle des geschätzten Personenparameters ist

----> theoretischer Minimalwert ist 1 / Wurzel aus (p*0.25) = 0.632 (bei p=10)

Was bedeutet adaptives Testen?

- Der Person werden sukzessive (computerbasiert) Items dargeboten, deren Schwierigkeit möglichst nah am Personenwert liegt / die dynamisch an die Leistungen der Person angepasst werden

--> Items tragen so maximal zur Schätzung des Personenwerts bei

- Personenwert nach jeder Antwort neu geschätzt, bis vorher festgelegtes Maß an Präzision erreicht ist

- Voraussetzung ist eine "Itembank" mit Rasch-homogenen Items verschiedener Schwierigkeitsgrade

Wie definiert Andrich (1982) die Reliabilität?

"Reliabilität (Personenseparierbarkeit) bezieht sich auf den Anteil der Varianz der wahren Personenwerte an der Varianz der geschätzten Personenwerte"

Welche Konsequenzen / Annahmen des Rasch Modells testet man, um dessen Modellgültigkeit zu prüfen?

1. Gleichheit der Itemparameter in Subpopulationen

- Sind einige Items für eine bestimmte Subgruppe leichter zu lösen als andere?

2. Wahrscheinlichkeitsverteilung der Antwortmuster und globale Modellgültigkeit

- Antworten einige Personen nicht auf Basis ihres Personenwerts sondern nach einem bestimmten Muster?

---------------------------von uns nicht behandelt, aber der Vollständigkeit halber aufgeführt-------------------------------

3. Gleichheit der Personen in Testhälften

4. Unkorrelierte Residuen

Gleichheit der Itemparameter in Subpopulationen

- bei bekannten Subpopulationen (z.B. Männer und Frauen) werden Itemparameter anhand der jeweiligen Substichproben geschätzt und verglichen

--> Likelihood-Ratio-Test

--> item-spezifischer Wald-Test

Likelihood-Ratio-Test

- zwei bedingte Likelihoods werden miteinander verglichen

- Prüfgröße ist Chi²

- informationstheoretische Maße verknüpfen Anpassungsgüte und Sparsamkeit des Modells

--> Parsimonitätsprinzip

--> Ziel: möglichst gute Passung / große Likelihood, bei möglichst wenigen Parametern / großer Sparsamkeit

--> Auch für Vergleiche nicht genesteter Modelle

--> häufigste Maße: Akaikes Information Criterion (AIC) und Bayes Information Criterion (BIC)

-----> Modell mit geringerem Wert bevorzugen

 

Itemspezifischer Wald-Test

= überprüft Hypothese, dass sich ein einzelner Parameter nicht zwischen Subpopulationen unterscheidet

= wenn signifikant, dann ist das Item "unfair" einer Subpopulation gegenüber

 

- vergleicht geschätzten Itemparameter aus beiden verglichenen Stichproben

--> quadrierter z-Wert der geschätzten Itemparameter geteilt durch Summe der Standardfehler

---> p-Wert sollte Bonferroni-Korrektur unterzogen werden

- wird für jedes Item einzeln durchgeführt

Gleichheit der Itemparameter in unbekannten Substichproben

- unbekannte latente Klasse, die sich in Itemparametern unterscheidet und für die Rasch-Modell gilt

= wir wissen nicht, dass z.B. Geschlecht der latente Faktor ist, das Antwortverhalten beeinflusst

- Lösung: Mischverteilungs-Rasch-Analyse

-----------> exploratives Vorgehen

-----------> konfirmatorisches Vorgehen

Modellgültigkeit anhand der Antwortmuster

= gilt Modell in der Population, sollten empirisch beobachtete Häufigkeiten und augrund des Modells erwartete Häufigkeiten gleich sein

- mit Pearson-Chi² überprüft

--> Prüfgröße PE ist approximativ Chi²-verteilt mit df = (Anzahl der Antwortmuster - 1) - Anzahl der zu schätzenden Parameter

Probleme des Pearson-Chi²-Tests

- sehr stichprobenabhängig

--> es muss eine große Stichprobe vorliegen, damit sie Chi² verteilt ist

- Anzahl der möglichen Antwortmuster wächst exponentiell mit Anzahl der Items 

---> weniger Antwortmuster in kleinen Stichproben

------> PE-Prüfgröße in der Anwendung nicht Chi² verteilt

Was ist eine Alternative zum Pearson-Chi²-Test?

= M2-Statistik

- berücksichtigt nicht die Wahrscheinlichkeit aller Antwortmuster ("full information statistic"), sondern basiert nur auf den univariaten und bivariaten Itemkennwerten ("limited information statistic")

- bei großen und kleinen Stichproben Chi²-verteilt!

- sollte nicht signifikant werden, da wir ja keine Unterschiede zwischen erwartetem und beobachtetem Antwortmuster wollen

Was tun bei mangelnder Modellgüte?

- um Rasch-Modell beibehalten zu können, müsste man post-hoc unpassende Items und Personen ausschließen

---> gut für weitere Verbesserung von Testkonstruktion, aber super aufwendig

- wie bedeutsam sind die Modellabweichungen? Wie stark sind die Konsequenzen vor dem Hintergrund unsers Ziels?

- hilfreich ist dann ein Modellvergleich mit weniger restriktiven Modellen (2-PL-Modell zum Beispiel)

 

MERKE: konnte das Rasch-Modell nicht verworfen werden, kann das auch an mangelnder Power liegen

Zweiparametrisches logistisches Modell - 2-PL-Modell - Birnbaum-Modell

- es kommt ein multiplikativer Steigungsparameter betai hinzu

--> Abweichung eines Personenwerts vom Schwierigkeitsparameter wird mit betai als Diskriminationsparameter im Unterschied zum Rasch-Modell gewichtet

----> = Trennschärfe = wie Faktorladungen im tau-kongenerischen Modell

 

Was definiert den Diskriminationsparameter inhaltlich?

- je höher betai, desto steiler die Kurve -> Steigung der Itemcharakteritikkurve an deren Wendepunkt (.50)

- je höher betai, desto deutlicher wirken sich die Unterschiede zwischen Personen auf der latenten Variablen aus

--->  Items "diskriminieren" dann besser zwischen den Merkmalsunterschieden

- gleicht konzeptuell dem Diskriminationsparameter aus Modell mit tau-kongenerischen Variablen

Wie können abweichende Items und abweichende Personen im Rasch-Modell identifiziert werden?

...anhand von Residualmaßen

(siehe Eid - glaube er könnte AIC und BIC damit meinen)

Was sind Unterschiede zwischen 2-PL und Rasch-Modell?

- Itemcharakteristikkurven können sich schneiden

- spezifische Objektivität nicht mehr gegeben

---> Vergleich zweier Items in Bezug auf Schwierigkeit hängt von Person ab

- Summenwert ist keine suffiziente Statistik mehr

- Parameter können nicht mehr mit der bedingten, sondern nur mit der marginalen oder unbedingten ML-Methode geschätzt werden

- Identifikation: Zur Normierung muss entweder der Diskriminationsparameter oder die Varianz der latenten Variablen auf einen positiven Wert festgelegt werden

Wo steht was im R-Output des 2-PL-Modells?

Wie ist der Modellvergleich mit Likelihood-Ratio-Test zu interpretieren?

Das Rasch-Modell passt signifikant schlechter auf die Daten als das 2-PL-Modell, Chi² (4) = 11.157, p < .05.

--> Das 2-PL-Modell sollte bevorzugt werden

Wie sind die Ergebnisse zur Prüfung der globalen Modellgültigkeit zu interpretieren?

Das Ergebnis des M2-Tests zeigt an, dass das 2-PL-Modell sehr gut auf die Daten passt, Chi² (5) = 3.731, p = .589, RMSEA = 0, 95% CI [0, 09], TLI = 1.028, CFI = 1, SRMR = 0.052.

-> Das Rasch-Modell kann ganz beruhigt verworfen werden