Testtheorie und -praxis

Diagnostik VL Psychologie Master

Diagnostik VL Psychologie Master


Kartei Details

Karten 57
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 25.04.2017 / 25.11.2023
Weblink
https://card2brain.ch/cards/20170425_testtheorie_und_praxis?max=40&offset=40
Einbinden
<iframe src="https://card2brain.ch/box/20170425_testtheorie_und_praxis/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Reliabilität - Herleitung 

Herleitung: Der Anteil der wahren Varianz Var(T) an der beobachteten Testvarianz Var(x) kann im Fall paralleler Tests als Test-Test-Korrelation rtt geschätzt werden

Reliabilität und Testverlängerung - Zusammenhang, Parallelität, Verlängerung (3)

Zusammenhang: Steigerung der Reliabilität durch Testverlängerung (Hinzunahme paralleler Testteile)

Parallelität: Wenn die Tests p und q die gleichen wahren Werte und Varianzen haben

Verlängerung: 

- Die gemeinsame Testwertevarianz setzt sich aus Summe der Varianzen der einzelnen Tests plus der zweifachen Kovarianz der Tests zusammen

- Dies kann auch in Anteilen wahrer Varianz und Fehlervarianz ausgedrückt werden und die Kovarianz der beiden Testwerte in Varianz des True Scores T 

- Durch Verdopplung der Testlänge verdoppelt sich zwar auch die Fehlervarianz, aber es kommt auch zu einer Vervierfachung der wahren Varianz!

Reliabilität bei Verdopplung der Testlänge (l) und Verlängerung um den Faktor K (4)

Reliabilität Rel bei verdoppelter Testlänge l:

 \(Rel (2l) = {2xRel \over 1+Rel}\)

-> Warum steht unten 1+Rel?

Resultierende Reliabilität eines Tests der Länge l durch Verlängerung um Faktor k kann durch die Spearman-Brown-Formel ausgedrückt werden:

\(Rel (kxl) = {kxRel \over 1+(k-1)xRel}\)

 

Reliabilität bei Verdopplung der Testlänge (l) und Verlängerung um den Faktor k - Anwendung

Anwendung:

- Um wie viele parallele Tests müsste ein Test verlängert werden, um seine Reliabilität auf eine bestimmten Wert anzuheben?

- Aufwertung von Split-Half-Reliabilitäten zur Schätzung der Gesamttest-Reliabilität 

Standardmessfehler für Tv - Voraussetzungen, Berechnung (5)

Voraussetzungen: Reliabilität und Testwertevarianz müssen bekannt sein 

Berechnung: 

- Testwertevarianz Var(x) kann in Anteile der Reliabilität und sich selbst zerlegt werden

Var(x) = Rel x Var(x) + (1-Rel) x Var(x)

- Dies kann zu wahrer Varianz Var(T) und Fehlervarianz Var(E) umgeformt werden

Var(x) = Var(T) + Var(E)

- Diese Gleichung kann nach Var(E) umgestellt werden: 

Var(E) = Var(x) - Rel x Var(x)

Var(E) = Var(x) x (1-Rel)        -> Var(E) stellt den unerklärten Varianzanteil der Testwertevarianz Var(x) dar (?)

- Durch Wurzelziehen erhält man den Standardmessfehler: Sozusagen die Standardabweichung der Fehlervarianz

SD(E) = SD(x) x \(\sqrt{1-Rel}\)
- Je höher die Reliabilität, desto kleiner der Standardmessfehler 

Konfidenzintervall für Tv - Definition

Das Konfidenzintervall umfasst denjenigen Bereich eines Merkmals, in dem sich 95% bzw 99% aller möglichen wahren Werte Tv befinden, die den Stichprobenwert ^Tv erzeugt haben können 

Konfidenzintervall für Tv - Voraussetzung, Berechnung (4)

Voraussetzung: Normalverteilung der Fehler

Berechnung: 

- einseitige Testung: ^Tv - z1 - a x SD(E) <= Tv <= ^Tv + z1 - a x SD(E)

- zweiseitige Testung: ^Tv - z1 - a/2 x SD(E) <= T <= ^Tv + z1 - a/2 x SD(E)

- untere Schranke <= Tv(wahrer Wert) <= obere Schranke 

- d.h. wahrer Wert -/+ z-Wert aus Tabelle x Standardmessfehler 

Konfidenzintervall für Tv - Bedeutung

Bedeutung: Der wahre Wert Tv liegt mit einer Wahrscheinlichkeit von (1-a, also 99%/95%) in diesem Intervall (a=0.05 bzw 0..01)

BSP Konfidenzintervall einer Intelligenzmessung: In einem Intelligenztest mit MWx= 100 und SD(x)= 15 erzielte ein Proband einen Testwert (IQ) von xv= 111. Die Reliabilität (Cronbachs Alpha) des Tests beträgt .94. Der Testanwender möchte wissen, in welchem Bereich der wahre Wert des Probanden mit einer Wahrscheinlichkeit von 95% liegt.

Rel = 0.94 -> SD(E) = 15 x \(\sqrt{1-0.94}\) = 3.67

- Mit SD(E) lässt sich nun ein Konfidenzintervall berechnen, in dem der wahre Wert mit einer Wahrscheinlichkeit von (1-a = 1 - 0.05 = .95 also 95%) liegt 

111 - 1.96 x 3.67 <= Tv <= 111 + 1.96 x 3.67

103.8 <= Tv <= 118.2  

- Der wahre IQ des Pbn liegt mit 95%iger Whrschk zwischen diesen Werten 

BSP Konfidenzintervall einer Messung von Hochbegabung: Der wahre Wert des Probanden liegt mit 95%iger Whrschk zwischen 121.75 und 138.25

- Welchen Testwert müsste der Proband bei Rel = .89 erzielen, um mit statistischer Sicherheit hochbegabt zu sein?

- Welchen Testwert müsste er bei Rel = .96 erzielen?

- Tv kann auch unter 130 liegen -> Es kann nicht mit statistischer Sicherheit gesagt werden, ob es sich um Hochbegabung handelt

- Bei x>= 139 würde die untere Grenze des Konfidenzintervalls  (^Tv-2 x SD(E)) keinen IQ unter 130 umfassen

- Bei Rel = .96 reicht ein x>=135, damit die unter Grenze nicht unter 130 fällt 

Konfidenzintervall: Was passiert bei Rel = 0? (4)

- Standardmessfehler = Standardabweichung der Testwerte 

SD(E) = SD(x)

- Die Breite des Konfidenzintervalls würde sich auf 49.5 vergrößern

2 x z1 - a x SD(x) = 2 x 1,65 x 15 = 49.5 

- Je kleiner die Reliabilität, desto breiter wird das Konfidenzintervall 

- Da bei sinkender Reliabilität auch die Punktschätzungen ungenau werden, sollten Tests mit Rel < .80 für die Individualdiagnostik nicht verwendet werden

Ausgewählte T-Werte und ihre 95%-Konfidenzintervalle in Abhängigkeit von der Reliabilität des Tests - Klassifizierung in unter- / durchschnittlich/ über-

Grenzen der KTT - Skalierung (2)

- Annahme, dass beobachtete Werte = wahrer Wert + Fehlerwert kann nicht empirisch überprüft werden, da die Größen nicht direkt beobachtbar sind 

- Intervallskalenniveau als Voraussetzung kann bei den tatsächlichen vorliegenden Testwerten nicht überprüft werden 

 

Grenzen der KTT - Konstruktvalidität (2)

- Homogenität der Testitems bezüglich des untersuchten Merkmals nicht überprüfbar

- Merkmale können nur operational definiert werden

 

Grenzen der KTT - Stichprobenabhängigkeit (2)

- Kennwerte der KTT sind stichprobenabhängig (Itemschwierigkeit, Trennschärfe, Reliabilität etc.)

- Generalisierbarkeit der Ereignisse unklar

Warum sind die meisten Testverfahren nach KTT konstruiert? (2)

- Bewährter Ansatz zur Beurteilung der Reliabilität von Tests und Fragebögen 

- Ökonomische und praktische Handhabung

Welche Theorien überwinden die Grenzen der KTT?

Item-Response-Theory (IRT):

- strengere Annahmen

- Beschreibung des Reaktionsverhaltens der Pbn durch Personen- und Itemparameter

- Probalistischer Zusammenhang zwischen Merkmalsausprägungen und beobachteten Messweren