Testtheorie & Testkonstruktion
Testtheorie & Testkonstruktion Vorlesung PHB 2018/2019
Testtheorie & Testkonstruktion Vorlesung PHB 2018/2019
Fichier Détails
Cartes-fiches | 32 |
---|---|
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 10.02.2019 / 30.12.2024 |
Lien de web |
https://card2brain.ch/box/20190210_testtheorie_testkonstruktion
|
Intégrer |
<iframe src="https://card2brain.ch/box/20190210_testtheorie_testkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wie ist der wahre Wert (True-Score-Variable) in der KTT definiert?
Der wahre Wert ist als Erwartungswert einer intraindividuellen (personenspezifischen)Verteilung eines Merkmals definiert
Welche vier Eigenschaften weisen die Fehlervariablen ei und die True-Score-Variablen ti in der KTT auf?
1. E(εi|τj) = 0
Der Erwartungswert der Messfehlervariable ist für jede Ausprägung der True Score Variable gleich 0
2. E(εi) = 0
der unbedingte Erwartungswert des Messfehlers ist 0
3. Cov(εi,τj)=0
Messfehler und Truescore sind unkorreliert
4. Var(Yi) = Var(τi)+Var(εi)
Die Varianz der beob. Var. lässt sich in die Varianz der True Score Var und die Messfehler Var zerlegen
Wie ist die Reliabilit ̈at in der KTT definiert? Welche Verfahren zur Bestimmung der Reliabilität kennen Sie?
Testreabilität ist die beob. Varianz durch die true Score Varianz definiert (Rel(Yi) = Var(τi) / Var(Yi))
Verfahren zur Bestimmung der Reliabilit ̈at:
- Paralleltest Rel
- Testhalbierungs Rel
- Retest Rel
Wofür benötigt man die Spearman-Brown-Formel? Unter welchen Umst ̈anden ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilit ̈at?
Durch die Summierung von mehreren Items (bzw. Testh ̈alften) kann die Pr ̈azision der Messung erho ̈ht werden.
I Spearman-Brown Formel zur Testverl ̈angerung bei Gu ̈ltigkeit des Modells mit essenziell t-parallelen Variablen
Welche Verfahren zur Bestimmung der wahren Werte in der KTT kennen Sie?
1. klassische Verfahren: beob Werte sind Schätzwerte der wahren Werte: Präzision der abhängig von der Fehlervarianz
2. modelbasierte Verfahren
Was ist der Standardsch ̈atzfehler und wofu ̈r beno ̈tigt man diesen in der psychodiagnostischen Praxis?
Der Standardschätzfehler ist die Standardabweichung der Residuen und dient um die Güte der Schätzung anzugeben, je größer der SSF desto ungenauer ist die Schätzung
Welche der folgenden Aussagen zu Messfehler- und True-Score-Variablen ist gemäß Klassischer Testtheorie falsch?
Nennen und erläutern Sie kurz mindestens 3 Aspekte der Konstruktvalidität.
- konvergente Konstruktvalidität
- diskriminante Konstruktvalidität
- Gültigkeit des Messmodells: (Gegeben, wenn sich die Testitems theoriekonform als Indikatoren eines gemeinsamen“latenten Faktors”nachweisen lassen)
Nennen zwei Ziele der exploratorischen Faktorenanalyse (EFA)?
Ziele der EFA:
1. Wie viele Dimensionen (latente Faktoren) werden beno ̈tigt, um die Zusammenh ̈ange zwischen den beobachteten (manifesten) Variablen zu erkl ̈aren?
→ Datenreduktion
Wie ko ̈nnen die latenten Faktoren inhaltlich interpretiert werden, die
das Konstrukt repr ̈asentieren sollen?
→ Sch ̈atzung & Interpretation der Faktoren
Wozu dient der Bartlett-Test?
Bartlett-Test auf Sph ̈arizit ̈at
Nullhypothese (H0): Es gibt keine Zusammenh ̈ange zwischen den manifesten Variablen (sog. Baseline-Modell)
Wichtig: Man ist daran interessiert, die Nullhypothese (H0) zu verwerfen und die Alternativhypothese (H1) anzunehmen!
Was ist ein Heywood-Fall?
Bei der Parametersch ̈atzung kann die Situation auftreten, dass für eine Residualvarianz ein negativer (d.h. theoretisch unmo ̈glicher) Wert gesch ̈atzt wird (“Heywood-Fall”)
Erl ̈autern Sie das (statistische) Vorgehen zur Bestimmung der
Faktoranzahl im Rahmen von EFAs?
Es wird zun ̈achst ein Modell mit einem Faktor gesch ̈atzt und dann schrittweise die Anzahl der Faktoren erho ̈ht
Die verschiedenen Modelle werden anhand von Modellgu ̈tekoeffizienten verglichen (z.B. χ2-Anpassungstest, informationstheoretische Maße wie AIC oder BIC, Closeness-of-Fit-Koeffizienten wie RMSEA)
Es wird dasjenige Modell ausgew ̈ahlt,
◃ das den Modellgu ̈tekriterien zufolge nicht verworfen werden muss
◃ das die geringste (oder eine relativ geringe) Anzahl von Faktoren aufweist
◃ das theoretisch sinnvoll interpretierbar ist
Welche weitere Methoden zur Bestimmung der Faktorenanzahl
kennen Sie?
1. Kaiser-Guttman Kriterium
◃ Extrahiere nur Faktoren, die einen Eigenwert > 1 aufweisen
2. Screeplot
◃ Plotte den Eigenwertverlauf und w ̈ahle nur jene latente Faktoren aus, die vor dem Knick im Eigenwertverlauf liegen.
3. Parallelanalyse nach Horn (1965)
Plotte den Eigenwertverlauf der empirischen Daten gegen einen zuf ̈alligen Eigenwertverlauf auf Basis von simulierten Daten. Extrahiere nur jene Faktoren, die vor dem Schnittpunkt der beiden Eigenwertverl ̈aufe liegen.
Was versteht man unter Eigenwerte? Wozu werden Eigenwerte in
der EFA verwendet?
Der Eigenwert eines Faktors ist die Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Der Eigenwert errechnet sich durch quadrieren und aufaddieren der Faktorladungen in den jeweiligen Spalten der Ladungsmatrix. Der Eigenwert gibt an, wie viel Varianz ein Faktor erklärt. Ein Eigenwert von eins bedeutet also, dass ein Faktor genauso viel Varianz wie eine Variable erklärt.
Was versteht man unter Kommunalit ̈at, was unter Uniqueness?
Kommunalit ̈at (h2) = Summe der quadrierten standardisierten Faktorladungen fu ̈r ein Item u ̈ber alle Faktoren
Im Fall von unkorrelierten Faktoren entspricht die Kommunalit ̈at der Reliabilit ̈at eines Item
Fu ̈r Item Q2 wurden folgende stand. Ladungen gesch ̈atzt: λs11=0.714 und λs12=0.381. Die Kommunalit ̈at (Reliabilit ̈at) fu ̈r Item Q2 betr ̈agt also 0.7142+0.3812=0.655
1-Kommunalit ̈at (h2) = Uniqueness
Die Uniqueness entspricht der standardisierten Fehlervarianz (der Anteil der Varianz einer beobachteten Variablen, der NICHT durch die Faktoren erkl ̈art werden kann)
Wie geht man vor, um die latenten Faktoren in der EFA zu interpretieren?
?????
Was ist eine orthogonale und was eine oblique Rotation?
Bei orthogonalen Rotationen bleibt die Unkorreliertheit der Faktoren erhalten
Die bekannteste orthogonale Rotation ist die Varimax-Rotation
◃ Diesem Kriterium zufolge werden die Faktoren so rotiert, dass dieVarianz der quadrierten Ladungen maximiert wird
◃ d.h. dass die quadrierten Ladungen entweder sehr hohe oder sehrniedrige Werte aufweisen
Was unterscheidet eine EFA von einer Hauptkomponentenanalyse?
Die Hauptkomponentenanalyse (“principal component analysis”, PCA) ist eine Technik der Datenreduktion, die h ̈aufig mit der EFA verwechselt wird
Bei der PCA geht es um die optimale lineare Kombination der beobachteten Variablen (und nicht um die Erkl ̈arung ihrer Kovariation durch latente Variablen)
Der PCA liegt kein Populationsmodell zugrunde und es werden keine Residualvariablen angenommen (die PCA ist keine EFA!)
Nennen Sie ein geeignetes Assoziationsmaß fu ̈r dichotome Variablen?
Zusammenhangsmaße fu ̈r dichotome Variablen
IRT I
10 | 86
Das Pendent zur Produkt-Momenent Korrelation bei dichotomen Variablen heißt φ-Koeffizient
Ein Nachteil ist, dass der φ-Koeffizient h ̈aufig einen eingeschr ̈ankten Wertebereich aufweist (also nicht den maximalen Wert von 1 erreichen kann)
◃ φ kann nur 1 sein, wenn beide Variablen die gleiche Randverteilung (Schwierigkeit) haben
◃ φ ist umso kleiner, je unterschiedlicher die Randverteilungen der beiden Items sind
Alternative Zusammenhangsmaße
IRT I
11 | 86
Poly- und Tetrachorische Korrelationen (werden bei konfirmatorischen Faktorenanalysen mit geordnet kategorialen beobachteten Variablen eingesetzt)
Wettquotientenverh ̈altnis (Odds-Ratio) wird in der logistischen Regression eingesetzt
Yules-Q (γ-Koeffizient, besonders geeignet, wenn Items sich in Bezug auf ihre Schwierigkeiten auf einem gemeinsamen Konstrukt anordnen lassen)
Durch welche Annahmen wird das Rasch-Modell definiert und was bedeuten diese?
Annahme 1: Rasch-Homogenit ̈at
Alle beobachteten Variablen erfassen in homogener Weise das gleiche latente Merkmal
Annahme 2: Bedingte stochastische Unabh ̈angigkeit
U ̈ber das latente Konstrukt hinaus bestehen keine Zusammenh ̈ange zwischen den beobachteten Variablen
Was ist damit gemeint, dass der Summenwert im Rasch-Modell eine “su ziente Statistik”ist?
Summenwert als suffiziente Statistik
Die Summe der gelo ̈sten Aufgaben bzw. bejahten Items
(S = Y1 + ... + Yp ) ist ein erscho ̈pfender (“suffizienter”) Sch ̈atzwert fu ̈r den Personenwert ηm
P(Yi =yi|η,S)=P(Yi =yi|S)
Es kommt nur darauf an, wie viele Items gelo ̈st/bejaht wurden, nicht
aber welche
Entspricht in dieser Hinsicht dem Modell (essentiell) τ- ̈aquivalenter Variablen
Welche Methoden zur Sch ̈atzung der Itemparameter ko ̈nnen beim Rasch-Modell herangezogen werden?
Alternative “schrittweise” ML-Sch ̈atzverfahren
Schritt 1: Sch ̈atzung der Itemparameter
Bedingte ML-Methode: Baut darauf auf, dass S eine suffiziente Statistik fu ̈r den Personenparameter ist (d.h. Itemparameter ko ̈nnen unabh ̈angig von den Personenparameter gesch ̈atzt werden)
Marginale ML-Methode: Item- und Personenparameter werden ebenfalls getrennt voneinander gesch ̈atzt. Setzt allerdings eine Annahme u ̈ber die Verteilung der Personenparameter voraus (z.B. Normalverteilung)
Schritt 2: Sch ̈atzung der Personenparameter
Unbedingte ML-Methode: Die Itemparameter werden in die Likelihood-Gleichung eingesetzt (Nachteil: es gibt keine Sch ̈atzwerte fu ̈rPersonenmits =0oders =p)
Gewichtete ML-Methode: Methode der Wahl
Wie ist die Iteminformationsfunktion definiert und wann ist ein Item am informativsten?
Die Iteminformation entspricht der bedingten Itemvarianz
Ii(η)=P(Yi =1|η)·P(Yi =0|η) =Var(Yi|η)
Das Item ist am informativsten, wenn Lo ̈sen und Nicht-Lo ̈sen gleich wahrscheinlich sind
Erkl ̈aren Sie kurz die Grundidee des Adaptiven Testens?
Einer Personen werden sukzessive (computerbasiert) diejenigen Items dargeboten, die maximal zur Sch ̈atzung ihres Personenwertes beitragen (d.h. deren Schwierigkeit mo ̈glichst nah am Personenwert liegt)
Wie ist die Reliabilit ̈at nach Andrich (1982) definiert und wie kann Sie inhaltlich interpretiert werden?
Reliabilit ̈at (“Personenseparierbarkeit”) bezieht sich auf den Anteil der Varianz der wahren Personenwerte an der Varianz der gesch ̈atzten Personenwerte
52.4% der gesch ̈atzten Personenwerte gehen auf wahre Personenunterschiede zuru ̈ck.
Nennen Sie zwei testbare Konsequenzen des Rasch-Modells und die jeweiligen Verfahren, mit denen diese Modellannahmen statistisch gepru ̈ft werden ko ̈nnen.
Gleichheit der Itemparameter in Subpopulationen
Bei bekannten Subpopulationen (z.B. M ̈anner und Frauen) werden die Itemparameteranhand der jeweiligen Substichproben gesch ̈atzt und verglichen
1. Likelihood-Ratio-Test
2. Itemspezifischer Wald-Test
Globale Modellgu ̈ltigkeit (Beobachtete und Erwartete H ̈aufigkeiten )
Pearson χ2-Tests
M2-Statistik (Maydeu-Olivares, 2013)
Welche methodischen Probleme weist der Pearson c2-Tests auf? Nennen Sie ein alternatives Maß um die Gesamtmodellgu ̈te zu prüfen.
es muss eine große Stichprobe vorliegen, damit die χ2-verteilt ist
daru ̈ber hinaus w ̈achst die Anzahl der mo ̈glichen Antwortmuster mit der Anzahl der Items p exponential an (im Beispiel 2p = 25 = 32, wobei die Mehrzahl der Antwortmuster in kleinen Stichproben gar nicht auftreten, 32-20=12)
Das fu ̈hrt dazu, dass die PE-Pru ̈fgro ̈ße in Anwendungen nicht χ2-verteilt ist
Eine alternative Methode zur Pru ̈fung der globalen Modellgu ̈ltigkeit ist die M2-Statistik (Maydeu-Olivares, 2013) (implementiert in mirt mit der Funktion M2)
Anstatt wie beim Pearson-χ2-Test die Wahrscheinlichkeiten aller Antwortmuster zu beru ̈cksichtigen (“full information statistic”), basiert die M2-Statistik nur auf den univariaten und bivariaten Itemkennwerten (“limited information statistic”)
Vorteil: Die Pru ̈fgro ̈ße ist auch bei gro ̈ßeren Modellen und in kleineren Stichproben χ2-verteilt
Alternative zum Pearson χ2-Tests
Eine alternative Methode zur Pru ̈fung der globalen Modellgu ̈ltigkeit ist die M2-Statistik (Maydeu-Olivares, 2013) (implementiert in mirt mit der Funktion M2)
Anstatt wie beim Pearson-χ2-Test die Wahrscheinlichkeiten aller Antwortmuster zu beru ̈cksichtigen (“full information statistic”), basiert die M2-Statistik nur auf den univariaten und bivariaten Itemkennwerten (“limited information statistic”)
Vorteil: Die Pru ̈fgro ̈ße ist auch bei gro ̈ßeren Modellen und in kleineren Stichproben χ2-verteilt
Wie ko ̈nnen abweichende Items und/oder abweichende Personen im Rasch-Modell identifziert werden?
Mit einem Person x(2) Test können Beobachtete und Erwartete H ̈aufigkeiten von personen analysiert werden
Wodurch ist das Birnbaum-Modell (Zwei-Parameterische logistische Modell) gekennzeichnet?
Die Abweichung eines Personenwerts vom Schwierigkeitsparameter wird im Unterschied zum Rasch-Modell mit βi gewichtet
Wie kann der Itemparameter bi im Birnbaum-Modell (2-PL-Modell) inhaltlich interpretiert werden?
Je gro ̈ßer βi ist, desto steiler verl ̈auft die Itemcharakteristikkurve an ihrem Wendepunkt
ein ho ̈heres βi bedeutet, dass sich Unterschiede zwischen Personen auf der latenten Variable deutlicher auswirken
d.h. die Items“diskriminieren”besser zwischen wahren Merkmalsunterschieden
Welche Zusammenhänge von Itemkennwerten sind falsch?