Diagnostische Psychologie
Inhalte der Vorlesung
Inhalte der Vorlesung
Kartei Details
Karten | 273 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 21.07.2018 / 15.07.2024 |
Weblink |
https://card2brain.ch/box/20180721_diagnostische_psychologie
|
Einbinden |
<iframe src="https://card2brain.ch/box/20180721_diagnostische_psychologie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Itemkennwerte
Schwierigkeit: Bewertungsskala
- Problem: bei einer Bewertungsskala (Ratingskala) lässt sich die Definition nicht anwenden.
- Definition des Schwierigkeitsindex für mehrstufige Itemantworten:
Pm = von allen Vpn erreichte Punktzahl/von allen VPn erreichbare Punktzahl x 100
- Wobei die niedrigste Kategorie mit 0 kodiert sein muss!
Itemkennwerte
Trennschärfe: Definition
- Die Trennschärfe rit ist die Korrelation zwischen dem Itemscore (Itemwert) und dem Testscore (Summenwert) der entsprechenden Skala.
- Die Trennschärfe rit ist ein Kennwert für das Ausmaß der Übereinstimmung zwischen Item und Skala bezüglich der Differenzierung der Probanden (Löser vs. Nichtlöser)
--> Wenn ein Proband ein Item gelöst hat, hat er dann auch den Test insgesamt gut bestanden?
--> „Wie repräsentativ ist das Item für den Test?“
- Die formale Berechnung hängt von den Skalenniveaus des Items und des Testscores ab.
- Testscore
--> kontinuierlich quantitativ abgestufte Variable
--> meist Intervallskala angenommen
- Item
--> Nominalskala bei dichotomen Antworten
--> Intervallskala bei Bewertungsskala mit wenigstens 5 Abstufungen
Itemkennwerte
Trennschärfe: Interpretation
- Trennschärfe = Ausmaß der Übereinstimmung zwischen Item und Skala bezüglich der Differenzierung der Probanden (Löser vs. Nichtlöser)
- Je höher die Trennschärfe, desto mehr trägt ein Item zur Differenzierung der Probanden durch den Test bei.
- Je höher die Trennschärfe, desto „besser“ ist ein Item für den Test --> ... falls alle anderen Indices (Schwierigkeit, Homogenität) gleich sind.
- Aber: für die Itemselektion müssen auch die anderen Itemkennwerte berücksichtigt werden (bes. die Schwierigkeit) sowie die Iteminhalte (> Validität)
Itemkennwerte
Trennschärfe bei intervallskalierten Items
= Produkt-Moment-Korrelation: rit= cov(I,Y)/Std(I)Std(Y)
rit = Trennschärfeindex für Item i des Test t
I = Itemscores für Item i in Stichprobe
Y = Testscores (= Summenscores) für Test t in Stichprobe
Itemkennwerte
Trennschärfe: dichotome Items
- Berechnung über die punkt-biseriale Korrelation möglich.
- Einfachere Lösung: Wenn die dichotome Variable eindeutig kodiert wurde (z.B. 0 und 1), dann ist die punkt-biseriale Korrelation gleich der Produkt-MomentKorrelation
Itemkennwerte
Trennschärfe: Problem
- Trennschärfe = Korrelation zwischen Itemscore und Testscore
- Problem: Itemscore geht rechnerisch in Testscore ein
- Beispiel
PA = PA_1 + PA_2 + PA_3 + ... + PA_10
rit = Kor(PA_1, PA)
- algebraische Abhängigkeit zwischen Testscore und Itemscore führt zu einer „künstlichen“ Vergrößerung der Korrelation
--> hat PA_1 kleinen Wert so ist auch PA relativ klein
--> hat PA_1 großen Wert so ist auch PA relativ groß
--> positiver Zusammenhang zwischen PA_1 und PA
--> Korrelation zwischen Itemscore und Testscore ist immer zum Teil auch Korrelation einer Variablen mit sich selbst
- Lösung: Teil-Ganz-Korrektur (part whole correction)
- Um die Trennschärfe eines Items zu ermitteln, wirrd der Itemscore jeweils von der Berechnung des Testscores ausgeschlossen.
Itemkennwerte
Trennschärfe: Teil-Ganz-Korrektur
- Die Trennschärfeindices werden durch die part-whole-Korrektur stets kleiner.
- Je größer die Anzahl der Items in einer Skala ist, desto kleiner sind die Effekte der part-whole-Korrektur.
--> In Skalen mit vielen Items tragen die einzelnen Itemscores wenig zum Testscore bei.
- Je ähnlicher die Items einer Skala sind (= je größer die „Homogenität“ der Skala ist), desto kleiner sind die Effekte der partwhole-Korrektur.
--> In homogenen Skalen erfassen alle Items dasselbe > der Beitrag eines einzelnen Items fällt weniger ins Gewicht.
- Part-whole-Korrekturen sollten standardmäßig gemacht werden.
Itemkennwerte
Homogenität: Definitionen
- Klassische Testtheorie: Homogen sind Items genau dann, wenn sie inhaltlich und formal übereinstimmen.
- Guttman (1950): Homogen sind Items genau dann, wenn jeder Proband, der eine schwere Aufgabe löst, auch alle leichteren Aufgaben löst.
- Rasch-Modell: Homogen sind Items genau dann, wenn ihre Item-Charkteristik-Kurven gleichartig verlaufen.
Itemkennwerte
Homogenität: Klassische Testtheorie
- Homogenität = Ausmaß der formalen und inhaltlichen Einheitlichkeit von Items
- Homogenität von Items, Homogenität von Skalen
Itemkennwerte
Homogenität: Klassische Testtheorie
Beispiele
- Beispiele für homogene Skalen (erfassen spezifische Dimensionen)
--> Leistungsbereich
d2-Aufmerksamkeits-Belastungstest (Brickenkamp, 1981)
Standard Progressive Matrices (Raven, Raven et al., 2002)
--> Persönlichkeitsbereich
Tests für spezifische Merkmale, z.B. Anger In des State-Trait-Anger-ExpressionInventory (Schwenkmezger et al., 1992)
- Beispiele für heterogene Skalen (erfassen globale Dimensionen)
--> Leistungsbereich
Verfahren zur Messung der Allgemeinen Intelligenz, z. B. Wechsler-Tests
--> Persönlichkeitsbereich
Tests für breite Merkmale, z.B. Extraversion, Neurotizismus, Psychotizismus, ...
Itemkennwerte
Homogenität: Klassische Testtheorie
Operationalisierung
- Operationalisierung (Berechnung)
HItem = Homogenität eines Items = mittlere Korrelation eines Items mit den anderen Items einer Skala
Hgesamt= Homogenität einer Skala = mittlere Korrelation aller Items einer Skala (Mittelwert über alle Korrelationen zwischen den Items)
Itemkennwerte
Homogenität: Klassische Testtheorie
Interpretation
- Ziel A: Skala soll homogen sein
es soll ein spezifisches Merkmal erfasst werden, d.h. ein eng umschriebenes Merkmal
je größer H, desto homogener ist die Skala
- Ziel B: Skala soll heterogen sein
es soll ein breites Merkmal erfasst werden, d.h. ein breites Spektrum von Verhaltensweisen
je kleiner H, desto heterogener ist die Skala
Itemkennwerte
Zusammenhänge: Trennschärfe und Homogenität
- Trennschärfe und Homogenität i.S. der KTT
--> Trennschärfe- und Homogenitätsindices hängen von der Interkorrelation der Items ab
Trennschärfe: Korrelation eines Itemscores mit den mittleren Scores der anderen Items
Homogenität: mittlere Korrelation eines Itemscores mit den anderen Itemscores
algebraische Abhängigkeit von Trennschärfe und Homogenität
- Trennschärfe- und Homogenitätsindices sind positiv korreliert
- Datenbeispiel EPQ-R (Hörsaal-Daten)
--> Trennschärfeindices der 6 Items der Skala E (punktbiseriale Korrelation, part wholekorrigiert): .55, .32, .45, .49, .38, .20;
--> Homogenitätsindices der 6 Items der Skala E (punktbiseriale Korrelation, gemittelt via Fischer‘s Z-Transformation): .37, .21, .32, ,.32, ,.24, .16;
--> Korrelationzwischen Trennschärfe- und Homogenitätsindices (Pearson-Korrelation nach Fischer‘s Z-Transformation der Indices): r = .99
- Trennschärfe und Homogenität sind essentiell dasselbe: rit = f(HItem)
Itemkennwerte
Zusammenhänge: Schwierigkeit und Streuung
- Die Standardabweichung eines dichtotomen Items x ist nur eine Funktion seiner Schwierigkeit
Std(x)= Wurzel aus p x q
x = dichotomes Item mit den Werten 0 und 1
p = NR/N = P/100 = Anteil aller Richtiglöser an N
- Std(x) wird maximal für mittlere Itemschwierigkeit (P = 50)!
NR = Anzahl der Probanden mit dem Wert 1 (= Anzahl Richtiglöser)
N = Anzahl aller Probanden
P = Schwierigkeitsindex
q = 1 – p = 1 – NR/N = N/N – NR/N = (N – NR)/N = NF/N = Anteil aller Falschlöser an N
Itemkennwerte
Zusammenhänge: Schwierigkeit und Trennschärfe
- Zusammenhang zwischen Schwierigkeit und Trennschärfe/Homogenität ist meist umgekehrt U-förmig
Mittlere Schwierigkeit und Trennschärfe
--> mittlere Werte (P = 50) bedeuten maximale Streuung der Itemscores
--> ausreichende Streuung ist eine praktische (keine theoretische!) Voraussetzung für hohe Korrelationskoeffizienten
ohne Variation einer Variablen gibt es auch keine Kovariation mit dieser Variablen
- > mittlere Schwierigkeitsindices begünstigen hohe Trennschärfe- und Homogenitätsindices i.S. der KTT (garantieren sie aber nicht)
extreme/unterschiedliche Schwierigkeit und Trennschärfe
- extreme Werte (P zwischen 5-10 oder 90-95) implizieren eine geringere Streuung der Itemscores
eingeschränkte Streuung vermindert meist die Korrelation
- extrem unterschiedliche Werte von P sind mit hohen (positiven) Interkorrelationen der Items meist nicht vereinbar
Beispiel: N = 10 Vpn, 2 Items
Item 1, Itemscores: 1, 0, 0, 0, 0, 0, 0, 0, 0, 0
Item 2, Itemscores: 1, 1, 1, 1, 1, 1, 1, 1, 1, 0
Schwierigkeitsindices: PItem1 = 10, PItem2 = 90
Korrelation: r = 0.11
- extreme/unterschiedliche Schwierigkeitsindices verhindern hohe Trennschärfeindices sowie eine hohe Homogenität der Skala (i.S. der KTT)
Itemkennwerte
Itemselektion: Grundregeln
Schwierigkeitsindex
- Möglichst breite Streuung der Schwierigkeitsindices einer Skala anstreben!
--> Differenzierung der Probanden auch in den Randbereichen der Merkmalsausprägung gewährleisten!
--> Weise (1975)
niedrig: > 80
mittel: 80 - 20
hoch: < 20
Trennschärfeindex
- Möglichst große Trennschärfeindices aller Items anstreben!
--> Jedes Item sollte zur Differenzierung der Probanden durch den Testscore möglichst viel beitragen!
--> Weise (1975) (part whole-korrigiert)
niedrig: < .30
mittel: .30-.50
groß: > .50
Konflikt zwischen Schwierigkeit und Trennschärfe
- Unterschiedliche Schwierigkeitsindices führten zu niedrigeren Iteminterkorrelationen und somit zu niedrigeren Trennschärfeindices
- Forderungen nach unterschiedlichen Schwierigkeitsindices und hohen Trennschärfeindices schließen sich aus!
Empfehlung
- Items mit niedriger Trennschärfe ausscheiden
- Items mit hoher Trennschärfe beibehalten (gerade auch bei extremen Schwierigkeitsindices von P = 5-10 oder P = 90-95)
- Itemselektion anhand des Selektionskennwertes
Itemkennwerte
Selektionskennwert
- Lienert (1989)
Sel = rit/2 x Std (x)
Sel = Selektionskennwert
rit = Trennschärfeindex
x = Itemscore
p = Schwierigkeitsgrad = P/100
q = 1 - p
Std (x) = Wurzel aus p x q
- Zähler: Je größer der Trennschärfeindex rit, desto größer wird Sel. > Items mit großer Trennschärfe werden bevorzugt!
- Nenner: Je extremer die Schwierigkeit eines Items, desto kleiner wird die Standardabweichung Std(x) und desto größer wird Sel. > Items mit extremer Schwierigkeit werden bevorzugt!
- Selektionsregel: Das Item mit dem größeren Wert von Sel wird beibehalten.
Objektivität
Gütekriterien: Formen
- Kriterien zur Beurteilung von Tests sind nicht verbindlich definiert.
- Kriterienkatalog des Testkuratoriums der Föderation Deutscher Psychologenverbände:
Kriterien zu den Testgrundlagen
z.B. theoretische Grundlagen, Nachvollziehbarkeit der Testkonstruktion
Kriterien zur Testdurchführung
z.B. Durchführungsobjektivität, Transparenz, Zumutbarkeit
Kriterien zur Testverwertung
z.B. Auswertungsobjektivität, Zuverlässigkeit, Gültigkeit
Kriterien zur Testevaluation
z.B. Ökonomie, Fairness, Vergleichbarkeit
Kriterien zur äußeren Testgestaltung
z.B. Verständlichkeit des Testmanuals und der Testmaterialien
Objektivität
Gütekriterien: Formen 2
- DIN 33430 zur Eignungsbeurteilung
Normierung der Bewerberauslese durch Leistungstests
„Verbraucherschutz“
- Hauptgütekriterien
Objektivität
Reliabilität
Validität
- Nebengütekriterien
Normierung
Testfairness
Objektivität
Objektivität: Definition und Formen
- Objektivität = Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind
- Objektivität kann in verschiedenen Phasen der Testung gefährdet sein
Durchführung, Auswertung, Interpretation
- Formen der Objektivität
Durchführungsobjektivität
Auswertungsobjektivität
Interpretationsobjektivität
Objektivität
Gefährdung und Gegenmaßnahmen
Gefährdung
- unterschiedliche Instruktionen
- unterschiedliche Launen des Testleiters, Auswerters, Gutachters,…
Gegenmaßnahmen:
– maximale Standardisierung der Testsituation
- identische Testmaterialien und Zeitvorgaben
- identische Instruktionen (schriftliche Vorgabe oder auswendig gelernt)
- Regeln, wie auf Nachfragen oder Störungen reagiert wird
- minimale soziale Interaktion zwischen Testleiter und Testperson
– maximale Standardisierung der Testauswertung
– Interpretation mittels statistischer Regeln
- Ermittlung der individuellen Position eines Probanden in der Population anhand von Normtabellen, z.B. IQ = 130 >> Prozentrang 97.7
Objektivität
quantitative Stimmung
quantitative Bestimmung
- Theorie:
- jeder Proband wird von verschiedenen Testleitern mit demselben Verfahren untersucht, ausgewertet bzw. interpretiert
- Objektivität = (mittlere) Korrelation der Testergebnisse zwischen verschiedenen Testleitern
– Unterschiedlich „strenge“ Bewertungen durch die Testleiter > Mittelwertsvergleiche, Intraklassen-Korrelation
- Praxis:
- mehrfach wiederholte Testdurchführung bei denselben Probanden kaum sinnvoll
- üblicherweise selten quantitativen Angaben
- Bewertung der Objektivität anhand von Plausibilitätserwägungen
Reliabilität
KTT - Latente Variablen
Ausgangspunkt: Zufallsvariablen für eine Person
- Die konkrete Person „Adam“ wird wiederholt aus einer Population von Personen U gezogen.
- Mit der Person wird immer wieder derselbe Test durchgeführt.
- Es resultieren die Testwerte Yi (= „Zufallsvariable“)
- Diese Werte sind mit unsystematischen Messfehlern behaftet und weisen deshalb eine intraindividuelle Verteilung auf.
True-Score (wahrer Wert) der Person
- Der True-Score "tau"Adam der Person „Adam“ wird definiert als bedingter Erwartungswert von Yi, gegeben die Person „Adam“:
"tau" Adam := E(Yi/U = Adam)
Fehlerwerte
- Die Abweichungen der Testwerte Yi vom True-Score "tau" Adam werden definiert als Fehlerwerte "epsilon"i:
"epsilon"i := Yi - "tau"Adam = Yi - E(Yi/U = Adam)
Reliabilität
KTT- Konsequenzen
- Die True-Score-Variable "tau"i kann als als Regression der Testvariablen Yi auf die Personen U aufgefasst werden.
Yi= "tau"i+ "epsilon"i= E (Yi/U)+ "epsilon"i
- Prädiktor: Personen U
- Kriterium: Testvariable Yi
- vorhergesagte Werte: Regression "tau"i := E(Yi/U)
- Residuum: Fehlervariable "epsilon"i
• Die Testvariablen Yi lässt sich also additiv zerlegen in ihre TrueScore-Variable "tau"i und ihre Fehlervariable "epsilon"i
Reliabilität
KTT- Konsequenzen II
Wie für alle Regressionen gelten auch hier die üblichen Eigenschaften:
- Der Erwartungswert des Residuums ist null --> E("epsilon"i)=0
- Vorhergesagter Wert und Residuum korrelieren zu null --> Cov("epsilon"i, "tau"i)= 0
- Achtung: diese Konsequenzen können in keiner empirischen Anwendung falsch sein!
Reliabilität
KTT. Konsequenzen III
- Die Varianz der Testvariablen Yi lässt sich additiv zerlegen in die Varianzen der True-Score-Variablen und Fehlervariablen: Var(Yi) = Var ("tau"i)+ Var ("epsilon"i)
Reliabilität
Reliabilitätskoeffizient
- Der Reliabilitätskoeffizient ist definiert als der Anteil der Varianz einer Testvariable Yi, der auf die Varianz der True-Score-Variable "tau"i zurückgeführt werden kann:
Rel(Yi) = Var("tau"i)/Var(Yi) = Var("tau"i)/Var ("tau"i)+ Var("epsilon"i)
- maximaler Wert: für Var("epsilon"i)=0 --> Rel(Yi)= 1
- minimaler Wert: für Var("epsilon"i)= unendlich --> Rel(Yi)= 0
- Der Reliabilitätskoeffizient hängt offensichtlich von zwei Faktoren ab:
-Varianz der True-Score-Variable > Stichprobe!
-Varianz der Fehlervariable > Test!
- „Reliabilität“ ist keine Eigenschaft eines Tests!
- „Reliabilität“ ist eine Eigenschaft einer Zufallsvariable!
- Zur Berechnung des Reliabilitätskoeffizienten muss die Varianz der True-Score-Variablen bekannt sein.
- ... ist sie aber nicht! Der Reliabilitätskoeffizient kann also niemals berechnet werden!
- ... aber er kann unter bestimmten Annahmen geschätzt werden! (> „Messmodelle“)
Reliabilität
Schätzung des Reliabilitätkoeffizienten
Schritt 1: doppelte Messung
Y1 = tau1+epsilon 1 --> Var (Y1)= Var(tau1)+Var(epsilon1)
Y2= tau2+epsilon2 ---> Var(Y2)= Var(tau2)+Var(epsilon2)
Schritt 2: Annahmen
1) beide True-Scores sind identisch
tau1 = tau2
--> Gleichungen vereinfachen sich
Y1 = tau + epsilon1 --> Var(Y1) = Var(tau) + Var(epsilon1)
Y2 = tau + epsilon 2 --> Var(Y2) = Var(tau) + Var(epsilon 2)
2) Fehler sind untereinander unkorreliert
--> Cov(epsilon 1, epsilon 2) = 0
--> Var (tau) ist berechenbar
---> Var (tau) = Cov (Y1,Y2)
---> Modell essentiell tau-äquivalenter Variablen ist ein Messmodell
--> Reliabilitätsschätzung:
Rel (Y1) = Cov (Y1, Y2)/Var (Y1)
Rel (Y2) = Cov (Y1, Y2)/Var (Y2)
Reliabilität
Praktische Realisierung der "doppelten Messung"
- Wiederholte Messung mit demselben Test (Retest-Methode)
- Messung mit zwei „parallelen“ Tests (Paralleltest-Methode)
- Halbierung des Tests (Testhalbierungs-Methode)
Reliabilität
Retest - Methode
Jeder Proband wird mit einem bestimmten Zeitintervall zweimal mit exakt demselben Test untersucht (es resultiert Y1 und Y2).
--> Annahme 1: essentielle tau-Äquivalenz tau1 = tau2 =: tau
- Bedeutung der Annahme
--> Annahme der absoluten zeitlichen Stabilität des True-Scores!
--> Annahme, dass es keine Testwiederholungs-Effekte gibt!
- Verletzung der Annahmen
--> Falls sich die True-Scores der Probanden zwischen den beiden Messgelegenheiten unsystematisch verändern, reduziert sich die Kovarianz zwischen Y1 und Y2
--> Konsequenz: Rel (Yi) wird unterschätzt
- Verletzung der letzteren Annahme
--> Falls sich die True-Scores der Probanden zwischen den beiden Messgelegenheiten systematisch verändern, erhöht sich evtl. die Kovarianz zwischen Y1 und Y2
Konsequenz: Rel (Yi) wird überschätzt
- Bewertung: diese Annahme muss stets bedacht werden!
---> Annahme 2: unkorrelierte Fehler Cov(epsilon1, epsillon2) = 0
- Bedeutung der Annahme
--> Probanden-spezifische Fehler wiederholen sich nicht!
--> Fehler sind nicht systematisch bezüglich Personen!
- Verletzung der Annahme
--> Falls die Fehler zwischen den beiden Messgelegenheiten positiv korrelieren, erhöht dies die Kovarianz zwischen Y1 und Y2
--> Konsequenz: Rel (Yi) wird überschätzt
- Bewertung: technische Annahme, könnte aber verletzt sein
Reliabilität
Retest- Methode: Wahl des Zeitraums
Dilemma
Option 1
- Erinnerungs- und Übungseffekte sollen vermieden werden (um Annahme der essentiellen tau-Äquivalenz nicht zu gefährden)
- besonders bei Leistungstests!
- also möglichst langes Zeitintervall wählen!
Option 2
- wahre Veränderungen des zu messenden Merkmals sollen nicht auftreten (um Annahme der essentiellen -Äquivalenz nicht zu gefährden)
- gilt für alle Tests!
- also möglichst kurzes Zeitintervall wählen!
Reliabilität
Retest-Methode: Bewertung
- Retest-Methode besonders angemessen bei Persönlichkeitstests (wegen hoher Stabilität der Merkmale)
- Retest-Methode umso problematischer bei Leistungstests, je mehr die Probanden von einer Testwiederholung profitieren können durch Übungs- und Lerneffekte
--> reine Speed-Tests (z.b. d2): wenig problematisch; Power- und Mischtests: problematischer
Reliabilität
Paralleltest-Methode
- Jeder Proband wird einmal mit zwei „parallelen“ Formen des Tests untersucht (es resultiert Y1 und Y2).
Annahme 1: essentielle tau-Äquivalenz
- Bedeutung der Annahme
--> Beide Tests messen (trotz unterschiedlicher Items) exakt denselben True-Score!
- Verletzung der Annahme
--> Falls sich die True-Scores der Probanden zwischen den beiden Parallelformen unsystematisch unterscheiden („beide Tests messen nicht exakt denselben True-Score“), reduziert sich die Kovarianz zwischen Y1 und Y2 • Konsequenz:
--> Rel (Yi) wird unterschätzt
--> auch bei Parallel-Tests können Übungs- und Lerneffekte auftreten!
- Bewertung: diese Annahme muss stets bedacht werden!
Annahme 2: unkorrelierte Fehler
- Bedeutung der Annahme
--> Probanden-spezifische Fehler wiederholen sich nicht!
--> Fehler sind nicht systematisch bezüglich Personen!
- Verletzung der Annahme
--> Falls die Fehler zwischen den beiden Parallelformen positiv korrelieren, erhöht dies die Kovarianz zwischen Y1 und Y2
--> Rel (Yi) wird überschätzt
- Bewertung: eher technische Annahme
--> aber: Fehlerübertragung (error propagation)
--> z.B. situative Faktoren falls beide Parallelformen in derselben Situation bearbeitet werden (Baustellenlärm bei Konzentrationstest) oder Nervosität einer Person
Reliabilität
Paralleltest- Methode
- „Parallelität“ von Testformen
- gleiche Mittelwerte
- gleiche Standardabweichungen
- Korrelationen nahe 1 --> zwischen den wahren Werten per Definition 1
- Herstellung von parallelen Testformen ist schwierig
- besonders bei eng begrenzten Eigenschaften
- Universum der möglichen Items ist begrenzt
- Meist gibt es keine streng parallelen Testformen!
- Ausnahme: reine Speed-Tests (z.B. d2)
- Items innerhalb eines Tests sind sehr ähnlich oder sogar identisch
- derselbe Test kann als „Parallelform“ aufgefasst werden
- Retest-Methode ist dann dasselbe wie Paralletest-Methode
Reliabilität
Testhalbierungmethode
- Jeder Proband wird einmal mit einem Test untersucht.
- Die Items werden auf zwei gleichgroße Test„hälften“ aufgeteilt (es resultiert Y1 und Y2).
Reliabilität
Aufteilungsmethoden (Power- und Mischtests)
Split-Half
- Testhälfte 1 = erste Hälfte aller Items
- Testhälfte 2 = zweite Hälfte aller Items
Odd-Even-Split
- Testhälfte 1 = alle Items mit ungerader Nummer
- Testhälfte 2 = alle Items mit gerader Nummer
Random Split: zufällige Aufteilung
Aufteilung über Itemkennwerte
- Paarlinge von Items mit gleicher Schwierigkeit/Trennschärfe bilden
- Zufällige Zuweisung von einzelnen Items der Paarlinge auf beide Testhälften
Reliabilität
Aufteilungsmethoden (Speed Test)
- Testscore = Anzahl der gelösten Items
- Problem: übliche Aufteilungsmethoden lassen sich nicht anwenden
- Lösung: Halbierung nach der Testzeit
Reliabilität
Testhalbierungsmethode- Annahmen
Annahme 1: essentiellen tau-Äquivalenz
- Bedeutung der Annahme
--> Beide Testhälften messen (trotz unterschiedlicher Items) exakt denselben True-Score!
- Verletzung der Annahme
--> Falls beide Testhälften nicht exakt denselben True-Score messen, reduziert sich die Kovarianz zwischen Y1 und Y2
--> Rel (Yi) wird unterschätzt
- Bewertung: diese Annahme muss stets bedacht werden
Annahme 2: wie bei anderen Methoden
Reliabilität
Testhalbierungsmethode- Probleme
Besonderes Problem
- Die Methode gestattet zunächst nur eine Schätzung der Reliabilität der Testhälften
- Gesucht ist aber eine Schätzung der Reliabilität des gesamten Tests
- Lösung: Hochrechnung der Reliabilität für gesamten Test mit Spearman-Brown-Formel
Reliabilität
Testhalbierungsmethode- Beurteilung
- zahlreiche Störfaktoren lassen sich ausschließen
--> Schwankung der Motivation, Stimmung, Aufmerksamkeit
--> wahre Veränderungen des Merkmals
--> Störfaktoren wirken auf beide Testhälften gleichermaßen
- Methode kommt der Beschreibung einer instrumentellen Messgenauigkeit sehr nahe.
- Problem: beide Testhälften müssen äquivalent sein!