Testtheorie & Testkonstruktion

Testtheorie & Testkonstruktion Vorlesung PHB 2018/2019

Testtheorie & Testkonstruktion Vorlesung PHB 2018/2019


Set of flashcards Details

Flashcards 32
Language Deutsch
Category Psychology
Level University
Created / Updated 10.02.2019 / 30.12.2024
Weblink
https://card2brain.ch/box/20190210_testtheorie_testkonstruktion
Embed
<iframe src="https://card2brain.ch/box/20190210_testtheorie_testkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie lautet die Grundgleichung der klassischen Testtheorie (KTT)?

 

Yi = ti + ei

Wie ist der wahre Wert (True-Score-Variable) in der KTT definiert?

Der wahre Wert ist als Erwartungswert einer intraindividuellen (personenspezifischen)Verteilung eines Merkmals definiert

Welche vier Eigenschaften weisen die Fehlervariablen ei und die True-Score-Variablen ti in der KTT auf?

1. E(εi|τj) = 0

Der Erwartungswert der Messfehlervariable ist für jede Ausprägung der True Score Variable gleich 0

2.  E(εi) = 0
der unbedingte Erwartungswert des Messfehlers ist 0

 

3. Cov(εi,τj)=0

Messfehler und Truescore sind unkorreliert

 

4. Var(Yi) = Var(τi)+Var(εi)

Die Varianz der beob. Var. lässt sich in die Varianz der True Score Var und die Messfehler Var zerlegen

Wie ist die Reliabilit ̈at in der KTT definiert? Welche Verfahren zur Bestimmung der Reliabilität kennen Sie?

Testreabilität ist die beob. Varianz durch die true Score Varianz definiert (Rel(Yi) = Var(τi) / Var(Yi))

Verfahren zur Bestimmung der Reliabilit ̈at:

  1. Paralleltest Rel
  2. Testhalbierungs Rel
  3. Retest Rel

Wofür benötigt man die Spearman-Brown-Formel? Unter welchen Umst ̈anden ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilit ̈at?

Durch die Summierung von mehreren Items (bzw. Testh ̈alften) kann die Pr ̈azision der Messung erho ̈ht werden.

I Spearman-Brown Formel zur Testverl ̈angerung bei Gu ̈ltigkeit des Modells mit essenziell t-parallelen Variablen

Welche Verfahren zur Bestimmung der wahren Werte in der KTT kennen Sie?

1. klassische Verfahren: beob Werte sind         Schätzwerte der wahren Werte: Präzision der              abhängig von der Fehlervarianz

2. modelbasierte Verfahren

Was ist der Standardsch ̈atzfehler und wofu ̈r beno ̈tigt man diesen in der psychodiagnostischen Praxis?

Der Standardschätzfehler ist die Standardabweichung der Residuen und dient um die Güte der Schätzung anzugeben, je größer der SSF desto ungenauer ist die Schätzung

Welche der folgenden Aussagen zu Messfehler- und True-Score-Variablen ist gemäß Klassischer Testtheorie falsch?

Nennen und erläutern Sie kurz mindestens 3 Aspekte der Konstruktvalidität.

  1. konvergente Konstruktvalidität
  2. diskriminante Konstruktvalidität
  3. Gültigkeit des Messmodells: (Gegeben, wenn sich die Testitems theoriekonform als Indikatoren eines gemeinsamen“latenten Faktors”nachweisen lassen)

  1. Nennen zwei Ziele der exploratorischen Faktorenanalyse (EFA)?

Ziele der EFA:

1.  Wie viele Dimensionen (latente Faktoren) werden beno ̈tigt, um die Zusammenh ̈ange zwischen den beobachteten (manifesten) Variablen zu erkl ̈aren?

Datenreduktion
Wie ko ̈nnen die latenten Faktoren inhaltlich interpretiert werden, die

das Konstrukt repr ̈asentieren sollen?

Sch ̈atzung & Interpretation der Faktoren

  1. Wozu dient der Bartlett-Test?

  • Bartlett-Test auf Sph ̈arizit ̈at

Nullhypothese (H0): Es gibt keine Zusammenh ̈ange zwischen den manifesten Variablen (sog. Baseline-Modell)

Wichtig: Man ist daran interessiert, die Nullhypothese (H0) zu verwerfen und die Alternativhypothese (H1) anzunehmen!

  1. Was ist ein Heywood-Fall?

Bei der Parametersch ̈atzung kann die Situation auftreten, dass für eine Residualvarianz ein negativer (d.h. theoretisch unmo ̈glicher) Wert gesch ̈atzt wird (“Heywood-Fall”)

  1. Erl ̈autern Sie das (statistische) Vorgehen zur Bestimmung der

    Faktoranzahl im Rahmen von EFAs?

  • Es wird zun ̈achst ein Modell mit einem Faktor gesch ̈atzt und dann schrittweise die Anzahl der Faktoren erho ̈ht

  •  Die verschiedenen Modelle werden anhand von Modellgu ̈tekoeffizienten verglichen (z.B. χ2-Anpassungstest, informationstheoretische Maße wie AIC oder BIC, Closeness-of-Fit-Koeffizienten wie RMSEA)

  •  Es wird dasjenige Modell ausgew ̈ahlt,

    das den Modellgu ̈tekriterien zufolge nicht verworfen werden muss

    das die geringste (oder eine relativ geringe) Anzahl von Faktoren aufweist

    das theoretisch sinnvoll interpretierbar ist

  1. Welche weitere Methoden zur Bestimmung der Faktorenanzahl

    kennen Sie?

1. Kaiser-Guttman Kriterium
Extrahiere nur Faktoren, die einen Eigenwert > 1 aufweisen

2. Screeplot
Plotte den Eigenwertverlauf und w ̈ahle nur jene latente Faktoren aus, die vor dem Knick im Eigenwertverlauf liegen.

3. Parallelanalyse nach Horn (1965)

Plotte den Eigenwertverlauf der empirischen Daten gegen einen zuf ̈alligen Eigenwertverlauf auf Basis von simulierten Daten. Extrahiere nur jene Faktoren, die vor dem Schnittpunkt der beiden Eigenwertverl ̈aufe liegen.

  1. Was versteht man unter Eigenwerte? Wozu werden Eigenwerte in

    der EFA verwendet?

Der Eigenwert eines Faktors ist die Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Der Eigenwert errechnet sich durch quadrieren und aufaddieren der Faktorladungen in den jeweiligen Spalten der Ladungsmatrix. Der Eigenwert gibt an, wie viel Varianz ein Faktor erklärt. Ein Eigenwert von eins bedeutet also, dass ein Faktor genauso viel Varianz wie eine Variable erklärt.

Was versteht man unter Kommunalit ̈at, was unter Uniqueness?

  • Kommunalit ̈at (h2) = Summe der quadrierten standardisierten Faktorladungen fu ̈r ein Item u ̈ber alle Faktoren

  •  Im Fall von unkorrelierten Faktoren entspricht die Kommunalit ̈at der Reliabilit ̈at eines Item

  •  Fu ̈r Item Q2 wurden folgende stand. Ladungen gesch ̈atzt: λs11=0.714 und λs12=0.381. Die Kommunalit ̈at (Reliabilit ̈at) fu ̈r Item Q2 betr ̈agt also 0.7142+0.3812=0.655

  •  1-Kommunalit ̈at (h2) = Uniqueness

  •  Die Uniqueness entspricht der standardisierten Fehlervarianz (der Anteil der Varianz einer beobachteten Variablen, der NICHT durch die Faktoren erkl ̈art werden kann)

Wie geht man vor, um die latenten Faktoren in der EFA zu interpretieren?

?????

Was ist eine orthogonale und was eine oblique Rotation?

Bei orthogonalen Rotationen bleibt die Unkorreliertheit der Faktoren erhalten

  •  Die bekannteste orthogonale Rotation ist die Varimax-Rotation
    Diesem Kriterium zufolge werden die Faktoren so rotiert, dass die

    Varianz der quadrierten Ladungen maximiert wird
    d.h. dass die quadrierten Ladungen entweder sehr hohe oder sehr

    niedrige Werte aufweisen

Was unterscheidet eine EFA von einer Hauptkomponentenanalyse?

  • Die Hauptkomponentenanalyse (“principal component analysis”, PCA) ist eine Technik der Datenreduktion, die h ̈aufig mit der EFA verwechselt wird

  •  Bei der PCA geht es um die optimale lineare Kombination der beobachteten Variablen (und nicht um die Erkl ̈arung ihrer Kovariation durch latente Variablen)

  •  Der PCA liegt kein Populationsmodell zugrunde und es werden keine Residualvariablen angenommen (die PCA ist keine EFA!)

Nennen Sie ein geeignetes Assoziationsmaß fu ̈r dichotome Variablen?

Zusammenhangsmaße fu ̈r dichotome Variablen

IRT I

10 | 86

 

Das Pendent zur Produkt-Momenent Korrelation bei dichotomen Variablen heißt φ-Koeffizient

Ein Nachteil ist, dass der φ-Koeffizient h ̈aufig einen eingeschr ̈ankten Wertebereich aufweist (also nicht den maximalen Wert von 1 erreichen kann)

φ kann nur 1 sein, wenn beide Variablen die gleiche Randverteilung (Schwierigkeit) haben

φ ist umso kleiner, je unterschiedlicher die Randverteilungen der beiden Items sind

Alternative Zusammenhangsmaße

IRT I

11 | 86

 

 

Poly- und Tetrachorische Korrelationen (werden bei konfirmatorischen Faktorenanalysen mit geordnet kategorialen beobachteten Variablen eingesetzt)

Wettquotientenverh ̈altnis (Odds-Ratio) wird in der logistischen Regression eingesetzt

Yules-Q (γ-Koeffizient, besonders geeignet, wenn Items sich in Bezug auf ihre Schwierigkeiten auf einem gemeinsamen Konstrukt anordnen lassen)

Durch welche Annahmen wird das Rasch-Modell definiert und was bedeuten diese?

Annahme 1: Rasch-Homogenit ̈at

Alle beobachteten Variablen erfassen in homogener Weise das gleiche latente Merkmal

Annahme 2: Bedingte stochastische Unabh ̈angigkeit

U ̈ber das latente Konstrukt hinaus bestehen keine Zusammenh ̈ange zwischen den beobachteten Variablen

Was ist damit gemeint, dass der Summenwert im Rasch-Modell eine “su ziente Statistik”ist?

Summenwert als suffiziente Statistik

Die Summe der gelo ̈sten Aufgaben bzw. bejahten Items
(S = Y1 + ... + Yp ) ist ein erscho ̈pfender (“suffizienter”) Sch ̈atzwert fu ̈r den Personenwert ηm

P(Yi =yi|η,S)=P(Yi =yi|S)
Es kommt nur darauf an, wie viele Items gelo ̈st/bejaht wurden, nicht

aber welche

Entspricht in dieser Hinsicht dem Modell (essentiell) τ- ̈aquivalenter Variablen

Welche Methoden zur Sch ̈atzung der Itemparameter ko ̈nnen beim Rasch-Modell herangezogen werden?

Alternative “schrittweise” ML-Sch ̈atzverfahren

Schritt 1: Sch ̈atzung der Itemparameter

  •  Bedingte ML-Methode: Baut darauf auf, dass S eine suffiziente Statistik fu ̈r den Personenparameter ist (d.h. Itemparameter ko ̈nnen unabh ̈angig von den Personenparameter gesch ̈atzt werden)

  •  Marginale ML-Methode: Item- und Personenparameter werden ebenfalls getrennt voneinander gesch ̈atzt. Setzt allerdings eine Annahme u ̈ber die Verteilung der Personenparameter voraus (z.B. Normalverteilung)

    Schritt 2: Sch ̈atzung der Personenparameter

  • Unbedingte ML-Methode: Die Itemparameter werden in die Likelihood-Gleichung eingesetzt (Nachteil: es gibt keine Sch ̈atzwerte fu ̈rPersonenmits =0oders =p)

  • Gewichtete ML-Methode: Methode der Wahl

 

Wie ist die Iteminformationsfunktion definiert und wann ist ein Item am informativsten?

Die Iteminformation entspricht der bedingten Itemvarianz

Ii(η)=P(Yi =1|η)·P(Yi =0|η) =Var(Yi|η)

Das Item ist am informativsten, wenn Lo ̈sen und Nicht-Lo ̈sen gleich wahrscheinlich sind

 

Erkl ̈aren Sie kurz die Grundidee des Adaptiven Testens?

Einer Personen werden sukzessive (computerbasiert) diejenigen Items dargeboten, die maximal zur Sch ̈atzung ihres Personenwertes beitragen (d.h. deren Schwierigkeit mo ̈glichst nah am Personenwert liegt)

Wie ist die Reliabilit ̈at nach Andrich (1982) definiert und wie kann Sie inhaltlich interpretiert werden?

Reliabilit ̈at (“Personenseparierbarkeit”) bezieht sich auf den Anteil der Varianz der wahren Personenwerte an der Varianz der gesch ̈atzten Personenwerte

52.4% der gesch ̈atzten Personenwerte gehen auf wahre Personenunterschiede zuru ̈ck.

Nennen Sie zwei testbare Konsequenzen des Rasch-Modells und die jeweiligen Verfahren, mit denen diese Modellannahmen statistisch gepru ̈ft werden ko ̈nnen.

  1. Gleichheit der Itemparameter in Subpopulationen

    • Bei bekannten Subpopulationen (z.B. M ̈anner und Frauen) werden die Itemparameteranhand der jeweiligen Substichproben gesch ̈atzt und verglichen

      1. Likelihood-Ratio-Test
      2. Itemspezifischer Wald-Test

  2. Globale Modellgu ̈ltigkeit (Beobachtete und Erwartete H ̈aufigkeiten )

    • Pearson χ2-Tests

    • M2-Statistik (Maydeu-Olivares, 2013)

Welche methodischen Probleme weist der Pearson c2-Tests auf? Nennen Sie ein alternatives Maß um die Gesamtmodellgu ̈te zu prüfen.

  • es muss eine große Stichprobe vorliegen, damit die χ2-verteilt ist

  •  daru ̈ber hinaus w ̈achst die Anzahl der mo ̈glichen Antwortmuster mit der Anzahl der Items p exponential an (im Beispiel 2p = 25 = 32, wobei die Mehrzahl der Antwortmuster in kleinen Stichproben gar nicht auftreten, 32-20=12)

  •  Das fu ̈hrt dazu, dass die PE-Pru ̈fgro ̈ße in Anwendungen nicht χ2-verteilt ist

  • Eine alternative Methode zur Pru ̈fung der globalen Modellgu ̈ltigkeit ist die M2-Statistik (Maydeu-Olivares, 2013) (implementiert in mirt mit der Funktion M2)

  •  Anstatt wie beim Pearson-χ2-Test die Wahrscheinlichkeiten aller Antwortmuster zu beru ̈cksichtigen (“full information statistic”), basiert die M2-Statistik nur auf den univariaten und bivariaten Itemkennwerten (“limited information statistic”)

  •  Vorteil: Die Pru ̈fgro ̈ße ist auch bei gro ̈ßeren Modellen und in kleineren Stichproben χ2-verteilt

  • Alternative zum Pearson χ2-Tests

  •  Eine alternative Methode zur Pru ̈fung der globalen Modellgu ̈ltigkeit ist die M2-Statistik (Maydeu-Olivares, 2013) (implementiert in mirt mit der Funktion M2)

  •  Anstatt wie beim Pearson-χ2-Test die Wahrscheinlichkeiten aller Antwortmuster zu beru ̈cksichtigen (“full information statistic”), basiert die M2-Statistik nur auf den univariaten und bivariaten Itemkennwerten (“limited information statistic”)

  •  Vorteil: Die Pru ̈fgro ̈ße ist auch bei gro ̈ßeren Modellen und in kleineren Stichproben χ2-verteilt

Wie ko ̈nnen abweichende Items und/oder abweichende Personen im Rasch-Modell identifziert werden?

Mit einem Person x(2) Test können Beobachtete und Erwartete H ̈aufigkeiten von personen analysiert werden

Wodurch ist das Birnbaum-Modell (Zwei-Parameterische logistische Modell) gekennzeichnet?

Die Abweichung eines Personenwerts vom Schwierigkeitsparameter wird im Unterschied zum Rasch-Modell mit βi gewichtet

Wie kann der Itemparameter bi im Birnbaum-Modell (2-PL-Modell) inhaltlich interpretiert werden?

  • Je gro ̈ßer βi ist, desto steiler verl ̈auft die Itemcharakteristikkurve an ihrem Wendepunkt

  •  ein ho ̈heres βi bedeutet, dass sich Unterschiede zwischen Personen auf der latenten Variable deutlicher auswirken

  •  d.h. die Items“diskriminieren”besser zwischen wahren Merkmalsunterschieden

Welche Zusammenhänge von Itemkennwerten sind falsch?