Testtheorie

Testtheorie und Fragebogenkonstruktion

Testtheorie und Fragebogenkonstruktion

Lucila Falballa

Lucila Falballa

Set of flashcards Details

Flashcards 143
Students 20
Language Deutsch
Category Psychology
Level University
Created / Updated 13.11.2012 / 25.02.2024
Weblink
https://card2brain.ch/box/testtheorie
Embed
<iframe src="https://card2brain.ch/box/testtheorie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Welche Orientierungen kommen für die Interpretation des Testwertes in Frage?

+ Normorientierung

+ Kriteriumsorientierung

Normorientierte Testwertinterpretation

+Die Stichproben für die Testeichung sollten möglichst repräsentativ für die

interessierende Grundgesamtheit sein

+ Information über Merkmalsausprägung relativ zu einer Bezugsgruppe

Welche Erhebungsmethoden gibt es bei der Normorientierten Testwertinterpretation?

- geschichtete Stichprobe (zufällige Auswahl)

o proportionale, disproportionale oder optimale Schichtung

- Quotenstichprobe (nicht zufällige Auswahl)

- Klumpenstichprobe (zufällige Auswahl der Klumpen)

- Auswahl aufs Geratewohl

o nachträgliche Quotierung

Bei einer nicht zufälligen Auswahl besteht immer das Problem, dass der

Stichprobenfehler nicht berechenbar ist und dass die Gefahr systematischer

Verzerrungen besteht.

Prozentrangnorm

Der Testwert wird als Prozentrang relativ zur Eichstichprobe angegeben.

Durch die nichtlineare Transformation liegt danach nur noch

Ordinalskalenniveau vor – Abstände sind z.B. nicht mehr interpretierbar

Standardnormen

Der Testwert wird einer z-Transformation bezüglich der Eichstichprobe

unterzogen. Eine anschließende weitere Lineartransformation erzeugt

„schönere“ Werte.

Selbstverständlich lassen sich z-Werte unabhängig von der Verteilungsform

bestimmen. Die Interpretierbarkeit der Werte steigt jedoch deutlich an, wenn

bekannt ist, dass die zugrundeliegende Verteilung eine Normalverteilung ist.

Stanine-Werte

Die seltsamen Zahlen ergeben sich aus der Festlegung der

zugehörigen Prozentränge mit (4% , 7%, 12%, 17%, 20% 17%, 12%, 7%, 4%). Heute gebräuchlich v.a. bei Tests, bei denen aufgrund eher mäßiger Reliabilität keine übertriebene numerische Präzision impliziert werden soll.

Standardnorm-Äquivalente

+Sind die Testrohwerte nicht normalverteilt, ist es üblich, sie für die Ermittlung

der Normtabellen zunächst einer Flächentransformation nach McCall zu

unterziehen

Als Ursachen für eine Abweichung der Testrohwertverteilung von einer

Normalverteilung lassen sich prinzipiell unterscheiden

- merkmalsbedingte Anormalität

- testbedingte Anormalität

- stichprobenbedingte Anormalität

Kriteriumsorientierte Testwertinterpretation

Merkmalsausprägung wird basierend auf inhaltlich-psychologisch definiertem

Kriterium interpretiert. Das Kriterium ergibt sich aus Überlegungen zur

inhaltlichen Bedeutung des Testwertes.

Häufig sind vorab definierte Schwellenwerte. Diese können sich ergeben aus

- externen Kriterien (z.B. Wahrscheinlichkeit für korrekte klinische

Diagnose, Wahrscheinlichkeit für Ausbildungserfolg)

- Aufgabeninhalten (z.B. Bildungsstandards, Ausmaß der Lernzielerfüllung

Grenzen und Schwächen der klassischen Testtheorie

- Beschränkung auf Messfehlertheorie

- keine messtheoretische Fundierung des angenommenen

Intervallskalenniveaus der Testwerte

- keine Berücksichtigung der Validität auf Modellebene

- Populationsabhängigkeit von Reliabilität und Validität

- Paradoxie: Senkung der Validität durch Steigerung der Homogenität

- Mangelnde Reliabilität von Veränderungsmessungen

Viele andere „Kritikpunkte“ sind in Wahrheit eher konzeptuelle

Missverständnisse, z.B.

- Attenuationsparadoxon

- Hinterfragung des „wahren Wertes“ (A1)

- Hinterfragung des Fehlerkonzepts (L1)

- Hinterfragung der Unabhängigkeit von wahren Werten und Fehlern (L2)

Grundidee der Item-Response-Theorie (IRT)

- Modelltheoretische Unterscheidung zwischen latenten und manifesten

Variablen

- Annahme einer probabilistischen Beziehung zwischen dem latenten

Fähigkeitsparameter ξ („ksi“) und dem Erfolg beim Lösen eines Items

- Gebräuchlich sind logarithmische Kurven zur Modellierung der

Lösungswahrscheinlichkeit der Items

Modellannahmen

- Eindimensionalität: Lösungswahrscheinlichkeit eines Items hängt allein von

der Personenfähigkeit ξ ab

- Monotonie: Lösungswahrscheinlichkeit eines Items steigt monoton mit der

Personenfähigkeit ξ

- Lokale stochastische Unabhängigkeit: für gegebene ξ sind die

Itemantworten der Items stochastisch unabhängig

Das Skalogramm-Modell von Guttman als Vorläufer

Im Skalogramm-Modell von Guttman (1950) wird angenommen, dass ab einem

bestimmten Fähigkeitsparameter ξ das Item gelöst wird. Es liegt also ein

deterministischer Zusammenhang vor.

Problem: Modellverletzungen (Tolerierbarkeit?)

Rasch-Modell (1PL)

Im Rasch-Modell wird ein probabilistischer Zusammenhang zwischen

Lösungswahrscheinlichkeit P(), Fähigkeit ξ und Itemschwierigkeit σ postuliert,

der zu logistischen Kurven führt:

Umgekehrt gelangt man mit der Logit-Funktion wieder von der

Lösungswahrscheinlichkeit zu der Parameterdifferenz:

s

Parameterschätzung

Die Schätzung der Item- und Personenparameter ξ und σ geschieht auf Basis der individuellen Antwortmuster basierend auf der obigen Modellgleichung. Dabei wird die sog. Likelihood des empirisch beobachteten Antwortmusters X durch iterative Suche im Raum aller ξvund σimaximiert (sog. Maximum-Likelihood-Methode).

Differenzskalenniveau

Das Skalenniveau von Fähigkeit ξ und Schwierigkeit σ ist das einer

Differenzskala (variabler Nullpunkt, feste Einheiten, daher Eindeutigkeit bis auf

eine additive Konstante). Dabei handelt es sich um eine logarithmierte

Verhältnisskala. Damit liegt mehr als Intervallskalenniveau vor.

Die additive Konstante bewirkt, dass es keinen natürlichen Nullpunkt für die

Differenzen ξ-σ gibt. Es ist daher üblich, die Itemparameter innerhalb eines

Tests so festzulegen, dass deren Summe 0 ergibt (sog. Summennormierung).

Die Personenparameter ergeben sich dann aus der o.g. Parameterschätzung.

Erschöpfende Statistiken

Für einen Rasch-modellkonformen Test lässt sich beweisen, dass die

individuellen Lösungsmuster der Testanden für die Bestimmung von ξ und σ

irrelevant sind. Es genügt, die jeweiligen Summenscores zu kennen. Daher sind diese Summenscores erschöpfende Statistiken für die Parameterschätzung.

Spezifische Objektivität

Für einen Rasch-modellkonformen Test lässt sich zeigen, dass die Bestimmung der Item- und Personenparameter stichprobenunabhängig ist. Ermöglicht wird dies durch die Beschränkung auf ICCs gleicher Form, die lediglich entlang der ξ-Achse verschoben sind.

So ergibt sich die spezifische Objektivität der Vergleiche von Items bzw.

Personen.

Das bedeutet, dass z.B. der Schwierigkeitsunterschied σj

-σi zweier Items unabhängig ist von dem Fähigkeitsniveau der Testanden. Ebenso ist der Fähigkeitsunterschied ξw-ξv zweier Testanden unabhängig vom mittleren Schwierigkeitsniveau der Items, aus denen der Test besteht.

Modelltests

Die Gültigkeit der Annahme der Rasch-Modellkonformität kann mit empirischen Modelltests geprüft werden. Geläufig ist die Teilung der Gesamtstichprobe nach je einem relevanten Kriterium und anschließende Itemparameterschätzungen in den Teilgruppen. Diese sollten sich nicht systematisch unterscheiden.

Informationsfunktion

Für Vergleiche zwischen Testanden sind die Items am informativsten, deren

Schwierigkeit σ nahe der Fähigkeit ξ der beiden Testanden liegt. Dies lässt sich über die sog. Informationsfunktion exakt beschreiben. Mit der Summe dieser Werte über die Items eines Tests ergibt sich auch eine Möglichkeit,

Konfidenzintervalle um Punktschätzungen für ξ zu legen.

2PL-Modell (Birnbaum-Modell)

Das 1PL-Modell (Rasch-Modell) lässt sich durch Aufnahme eines

Diskriminationsparameters λ zum 2PL-Modell (Birnbaum-Modell) erweitern.

Damit wird eine unterschiedliche Steigung der ICCs ermöglicht. Damit werden

aber wesentliche Vorzüge des Rasch-Modells geopfert (z.B. die spezifische

Objektivität, erschöpfende Statistiken und die Modelltests).

3PL - Modell

+ Rateparameter