Testtheorie
Testtheorie und Fragebogenkonstruktion
Testtheorie und Fragebogenkonstruktion
Set of flashcards Details
Flashcards | 143 |
---|---|
Students | 20 |
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 13.11.2012 / 25.02.2024 |
Weblink |
https://card2brain.ch/box/testtheorie
|
Embed |
<iframe src="https://card2brain.ch/box/testtheorie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Welche Orientierungen kommen für die Interpretation des Testwertes in Frage?
+ Normorientierung
+ Kriteriumsorientierung
Normorientierte Testwertinterpretation
+Die Stichproben für die Testeichung sollten möglichst repräsentativ für die
interessierende Grundgesamtheit sein
+ Information über Merkmalsausprägung relativ zu einer Bezugsgruppe
Welche Erhebungsmethoden gibt es bei der Normorientierten Testwertinterpretation?
- geschichtete Stichprobe (zufällige Auswahl)
o proportionale, disproportionale oder optimale Schichtung
- Quotenstichprobe (nicht zufällige Auswahl)
- Klumpenstichprobe (zufällige Auswahl der Klumpen)
- Auswahl aufs Geratewohl
o nachträgliche Quotierung
Bei einer nicht zufälligen Auswahl besteht immer das Problem, dass der
Stichprobenfehler nicht berechenbar ist und dass die Gefahr systematischer
Verzerrungen besteht.
Prozentrangnorm
Der Testwert wird als Prozentrang relativ zur Eichstichprobe angegeben.
Durch die nichtlineare Transformation liegt danach nur noch
Ordinalskalenniveau vor – Abstände sind z.B. nicht mehr interpretierbar
Der Testwert wird einer z-Transformation bezüglich der Eichstichprobe
unterzogen. Eine anschließende weitere Lineartransformation erzeugt
„schönere“ Werte.
Selbstverständlich lassen sich z-Werte unabhängig von der Verteilungsform
bestimmen. Die Interpretierbarkeit der Werte steigt jedoch deutlich an, wenn
bekannt ist, dass die zugrundeliegende Verteilung eine Normalverteilung ist.
Stanine-Werte
Die seltsamen Zahlen ergeben sich aus der Festlegung der
zugehörigen Prozentränge mit (4% , 7%, 12%, 17%, 20% 17%, 12%, 7%, 4%). Heute gebräuchlich v.a. bei Tests, bei denen aufgrund eher mäßiger Reliabilität keine übertriebene numerische Präzision impliziert werden soll.
Standardnorm-Äquivalente
+Sind die Testrohwerte nicht normalverteilt, ist es üblich, sie für die Ermittlung
der Normtabellen zunächst einer Flächentransformation nach McCall zu
unterziehen
Als Ursachen für eine Abweichung der Testrohwertverteilung von einer
Normalverteilung lassen sich prinzipiell unterscheiden
- merkmalsbedingte Anormalität
- testbedingte Anormalität
- stichprobenbedingte Anormalität
Kriteriumsorientierte Testwertinterpretation
Merkmalsausprägung wird basierend auf inhaltlich-psychologisch definiertem
Kriterium interpretiert. Das Kriterium ergibt sich aus Überlegungen zur
inhaltlichen Bedeutung des Testwertes.
Häufig sind vorab definierte Schwellenwerte. Diese können sich ergeben aus
- externen Kriterien (z.B. Wahrscheinlichkeit für korrekte klinische
Diagnose, Wahrscheinlichkeit für Ausbildungserfolg)
- Aufgabeninhalten (z.B. Bildungsstandards, Ausmaß der Lernzielerfüllung
Grenzen und Schwächen der klassischen Testtheorie
- Beschränkung auf Messfehlertheorie
- keine messtheoretische Fundierung des angenommenen
Intervallskalenniveaus der Testwerte
- keine Berücksichtigung der Validität auf Modellebene
- Populationsabhängigkeit von Reliabilität und Validität
- Paradoxie: Senkung der Validität durch Steigerung der Homogenität
- Mangelnde Reliabilität von Veränderungsmessungen
Viele andere „Kritikpunkte“ sind in Wahrheit eher konzeptuelle
Missverständnisse, z.B.
- Attenuationsparadoxon
- Hinterfragung des „wahren Wertes“ (A1)
- Hinterfragung des Fehlerkonzepts (L1)
- Hinterfragung der Unabhängigkeit von wahren Werten und Fehlern (L2)
- Modelltheoretische Unterscheidung zwischen latenten und manifesten
Variablen
- Annahme einer probabilistischen Beziehung zwischen dem latenten
Fähigkeitsparameter ξ („ksi“) und dem Erfolg beim Lösen eines Items
- Gebräuchlich sind logarithmische Kurven zur Modellierung der
Lösungswahrscheinlichkeit der Items
Modellannahmen
- Eindimensionalität: Lösungswahrscheinlichkeit eines Items hängt allein von
der Personenfähigkeit ξ ab
- Monotonie: Lösungswahrscheinlichkeit eines Items steigt monoton mit der
Personenfähigkeit ξ
- Lokale stochastische Unabhängigkeit: für gegebene ξ sind die
Itemantworten der Items stochastisch unabhängig
Das Skalogramm-Modell von Guttman als Vorläufer
Im Skalogramm-Modell von Guttman (1950) wird angenommen, dass ab einem
bestimmten Fähigkeitsparameter ξ das Item gelöst wird. Es liegt also ein
deterministischer Zusammenhang vor.
Problem: Modellverletzungen (Tolerierbarkeit?)
Die Schätzung der Item- und Personenparameter ξ und σ geschieht auf Basis der individuellen Antwortmuster basierend auf der obigen Modellgleichung. Dabei wird die sog. Likelihood des empirisch beobachteten Antwortmusters X durch iterative Suche im Raum aller ξvund σimaximiert (sog. Maximum-Likelihood-Methode).
Differenzskalenniveau
Das Skalenniveau von Fähigkeit ξ und Schwierigkeit σ ist das einer
Differenzskala (variabler Nullpunkt, feste Einheiten, daher Eindeutigkeit bis auf
eine additive Konstante). Dabei handelt es sich um eine logarithmierte
Verhältnisskala. Damit liegt mehr als Intervallskalenniveau vor.
Die additive Konstante bewirkt, dass es keinen natürlichen Nullpunkt für die
Differenzen ξ-σ gibt. Es ist daher üblich, die Itemparameter innerhalb eines
Tests so festzulegen, dass deren Summe 0 ergibt (sog. Summennormierung).
Die Personenparameter ergeben sich dann aus der o.g. Parameterschätzung.
Erschöpfende Statistiken
Für einen Rasch-modellkonformen Test lässt sich beweisen, dass die
individuellen Lösungsmuster der Testanden für die Bestimmung von ξ und σ
irrelevant sind. Es genügt, die jeweiligen Summenscores zu kennen. Daher sind diese Summenscores erschöpfende Statistiken für die Parameterschätzung.
Spezifische Objektivität
Für einen Rasch-modellkonformen Test lässt sich zeigen, dass die Bestimmung der Item- und Personenparameter stichprobenunabhängig ist. Ermöglicht wird dies durch die Beschränkung auf ICCs gleicher Form, die lediglich entlang der ξ-Achse verschoben sind.
So ergibt sich die spezifische Objektivität der Vergleiche von Items bzw.
Personen.
Das bedeutet, dass z.B. der Schwierigkeitsunterschied σj
-σi zweier Items unabhängig ist von dem Fähigkeitsniveau der Testanden. Ebenso ist der Fähigkeitsunterschied ξw-ξv zweier Testanden unabhängig vom mittleren Schwierigkeitsniveau der Items, aus denen der Test besteht.
Modelltests
Die Gültigkeit der Annahme der Rasch-Modellkonformität kann mit empirischen Modelltests geprüft werden. Geläufig ist die Teilung der Gesamtstichprobe nach je einem relevanten Kriterium und anschließende Itemparameterschätzungen in den Teilgruppen. Diese sollten sich nicht systematisch unterscheiden.
Informationsfunktion
Für Vergleiche zwischen Testanden sind die Items am informativsten, deren
Schwierigkeit σ nahe der Fähigkeit ξ der beiden Testanden liegt. Dies lässt sich über die sog. Informationsfunktion exakt beschreiben. Mit der Summe dieser Werte über die Items eines Tests ergibt sich auch eine Möglichkeit,
Konfidenzintervalle um Punktschätzungen für ξ zu legen.
Das 1PL-Modell (Rasch-Modell) lässt sich durch Aufnahme eines
Diskriminationsparameters λ zum 2PL-Modell (Birnbaum-Modell) erweitern.
Damit wird eine unterschiedliche Steigung der ICCs ermöglicht. Damit werden
aber wesentliche Vorzüge des Rasch-Modells geopfert (z.B. die spezifische
Objektivität, erschöpfende Statistiken und die Modelltests).