Diagnostische Psychologie

Inhalte der Vorlesung

Inhalte der Vorlesung


Kartei Details

Karten 273
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 21.07.2018 / 15.07.2024
Weblink
https://card2brain.ch/box/20180721_diagnostische_psychologie
Einbinden
<iframe src="https://card2brain.ch/box/20180721_diagnostische_psychologie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Itemkennwerte 

Schwierigkeit: Bewertungsskala 

  •  Problem: bei einer Bewertungsskala (Ratingskala) lässt sich die Definition nicht anwenden.
  • Definition des Schwierigkeitsindex für mehrstufige Itemantworten:

             Pm = von allen Vpn erreichte Punktzahl/von allen VPn erreichbare Punktzahl x 100

  • Wobei die niedrigste Kategorie mit 0 kodiert sein muss!

Itemkennwerte 

Trennschärfe: Definition

  • Die Trennschärfe rit ist die Korrelation zwischen dem Itemscore (Itemwert) und dem Testscore (Summenwert) der entsprechenden Skala.
  • Die Trennschärfe rit ist ein Kennwert für das Ausmaß der Übereinstimmung zwischen Item und Skala bezüglich der Differenzierung der Probanden (Löser vs. Nichtlöser)

             --> Wenn ein Proband ein Item gelöst hat, hat er dann auch den Test insgesamt gut bestanden?

             --> „Wie repräsentativ ist das Item für den Test?“

  • Die formale Berechnung hängt von den Skalenniveaus des Items und des Testscores ab.
  • Testscore

           --> kontinuierlich quantitativ abgestufte Variable

           --> meist Intervallskala angenommen

  • Item

          --> Nominalskala bei dichotomen Antworten

          --> Intervallskala bei Bewertungsskala mit wenigstens 5 Abstufungen

Itemkennwerte 

Trennschärfe: Interpretation 

  • Trennschärfe = Ausmaß der Übereinstimmung zwischen Item und Skala bezüglich der Differenzierung der Probanden (Löser vs. Nichtlöser)
  • Je höher die Trennschärfe, desto mehr trägt ein Item zur Differenzierung der Probanden durch den Test bei.
  • Je höher die Trennschärfe, desto „besser“ ist ein Item für den Test -->  ... falls alle anderen Indices (Schwierigkeit, Homogenität) gleich sind.
  • Aber: für die Itemselektion müssen auch die anderen Itemkennwerte berücksichtigt werden (bes. die Schwierigkeit) sowie die Iteminhalte (> Validität)
  •  

Itemkennwerte 

Trennschärfe bei intervallskalierten Items 

 

= Produkt-Moment-Korrelation: rit= cov(I,Y)/Std(I)Std(Y)

 rit = Trennschärfeindex für Item i des Test t

I = Itemscores für Item i in Stichprobe

Y = Testscores (= Summenscores) für Test t in Stichprobe

Itemkennwerte

Trennschärfe: dichotome Items 

  • Berechnung über die punkt-biseriale Korrelation möglich.
  • Einfachere Lösung: Wenn die dichotome Variable eindeutig kodiert wurde (z.B. 0 und 1), dann ist die punkt-biseriale Korrelation gleich der Produkt-MomentKorrelation

Itemkennwerte 

Trennschärfe: Problem 

  • Trennschärfe = Korrelation zwischen Itemscore und Testscore
  • Problem: Itemscore geht rechnerisch in Testscore ein
  • Beispiel

            PA = PA_1 + PA_2 + PA_3 + ... + PA_10

            rit = Kor(PA_1, PA)

  • algebraische Abhängigkeit zwischen Testscore und Itemscore führt zu einer „künstlichen“ Vergrößerung der Korrelation

            --> hat PA_1 kleinen Wert so ist auch PA relativ klein

            --> hat PA_1 großen Wert so ist auch PA relativ groß

            --> positiver Zusammenhang zwischen PA_1 und PA

            --> Korrelation zwischen Itemscore und Testscore ist immer zum Teil auch Korrelation einer Variablen mit sich selbst

  • Lösung: Teil-Ganz-Korrektur (part whole correction)
  • Um die Trennschärfe eines Items zu ermitteln, wirrd der Itemscore jeweils von der Berechnung des Testscores ausgeschlossen.
     

Itemkennwerte

Trennschärfe: Teil-Ganz-Korrektur

  • Die Trennschärfeindices werden durch die part-whole-Korrektur stets kleiner.
  • Je größer die Anzahl der Items in einer Skala ist, desto kleiner sind die Effekte der part-whole-Korrektur.

         --> In Skalen mit vielen Items tragen die einzelnen Itemscores wenig zum Testscore bei.

  • Je ähnlicher die Items einer Skala sind (= je größer die „Homogenität“ der Skala ist), desto kleiner sind die Effekte der partwhole-Korrektur.

        --> In homogenen Skalen erfassen alle Items dasselbe > der Beitrag eines einzelnen Items fällt weniger ins Gewicht.

  • Part-whole-Korrekturen sollten standardmäßig gemacht werden.

Itemkennwerte 

Homogenität: Definitionen 

  • Klassische Testtheorie: Homogen sind Items genau dann, wenn sie inhaltlich und formal übereinstimmen.
  • Guttman (1950): Homogen sind Items genau dann, wenn jeder Proband, der eine schwere Aufgabe löst, auch alle leichteren Aufgaben löst.
  • Rasch-Modell: Homogen sind Items genau dann, wenn ihre Item-Charkteristik-Kurven gleichartig verlaufen.

Itemkennwerte

Homogenität: Klassische Testtheorie

 

  • Homogenität = Ausmaß der formalen und inhaltlichen Einheitlichkeit von Items
  • Homogenität von Items, Homogenität von Skalen

Itemkennwerte 

Homogenität: Klassische Testtheorie 

Beispiele 

  • Beispiele für homogene Skalen (erfassen spezifische Dimensionen)

             --> Leistungsbereich

             d2-Aufmerksamkeits-Belastungstest (Brickenkamp, 1981)

             Standard Progressive Matrices (Raven, Raven et al., 2002)

             --> Persönlichkeitsbereich

             Tests für spezifische Merkmale, z.B. Anger In des State-Trait-Anger-ExpressionInventory (Schwenkmezger et al., 1992)

  • Beispiele für heterogene Skalen (erfassen globale Dimensionen)

          -->  Leistungsbereich

           Verfahren zur Messung der Allgemeinen Intelligenz, z. B. Wechsler-Tests

         --> Persönlichkeitsbereich

          Tests für breite Merkmale, z.B. Extraversion, Neurotizismus, Psychotizismus, ...

Itemkennwerte 

Homogenität: Klassische Testtheorie 

Operationalisierung 

  • Operationalisierung (Berechnung)

            HItem = Homogenität eines Items = mittlere Korrelation eines Items mit den anderen Items einer Skala

            Hgesamt= Homogenität einer Skala = mittlere Korrelation aller Items einer Skala (Mittelwert über alle Korrelationen zwischen den Items)

Itemkennwerte 

Homogenität: Klassische Testtheorie  

Interpretation

  •  Ziel A: Skala soll homogen sein

           es soll ein spezifisches Merkmal erfasst werden, d.h. ein eng umschriebenes Merkmal

           je größer H, desto homogener ist die Skala

  • Ziel B: Skala soll heterogen sein

          es soll ein breites Merkmal erfasst werden, d.h. ein breites Spektrum von Verhaltensweisen

          je kleiner H, desto heterogener ist die Skala

Itemkennwerte 

Zusammenhänge: Trennschärfe und Homogenität 

  • Trennschärfe und Homogenität i.S. der KTT

         --> Trennschärfe- und Homogenitätsindices hängen von der Interkorrelation der Items ab

        Trennschärfe: Korrelation eines Itemscores mit den mittleren Scores der anderen Items

        Homogenität: mittlere Korrelation eines Itemscores mit den anderen Itemscores

       algebraische Abhängigkeit von Trennschärfe und Homogenität

  • Trennschärfe- und Homogenitätsindices sind positiv korreliert
  • Datenbeispiel EPQ-R (Hörsaal-Daten)

        --> Trennschärfeindices der 6 Items der Skala E (punktbiseriale Korrelation, part wholekorrigiert): .55, .32, .45, .49, .38, .20;

       --> Homogenitätsindices der 6 Items der Skala E (punktbiseriale Korrelation, gemittelt via Fischer‘s Z-Transformation): .37, .21, .32, ,.32, ,.24, .16;

       --> Korrelationzwischen Trennschärfe- und Homogenitätsindices (Pearson-Korrelation nach Fischer‘s Z-Transformation der Indices): r = .99

  • Trennschärfe und Homogenität sind essentiell dasselbe: rit = f(HItem)

Itemkennwerte

Zusammenhänge: Schwierigkeit und Streuung 

  •  Die Standardabweichung eines dichtotomen Items x ist nur eine Funktion seiner Schwierigkeit

Std(x)= Wurzel aus p x q

x = dichotomes Item mit den Werten 0 und 1

p = NR/N = P/100 = Anteil aller Richtiglöser an N

  • Std(x) wird maximal für mittlere Itemschwierigkeit (P = 50)!

NR = Anzahl der Probanden mit dem Wert 1 (= Anzahl Richtiglöser)

N = Anzahl aller Probanden

P = Schwierigkeitsindex

q = 1 – p = 1 – NR/N = N/N – NR/N = (N – NR)/N = NF/N    = Anteil aller Falschlöser an N

Itemkennwerte 

Zusammenhänge: Schwierigkeit und Trennschärfe 

 

  • Zusammenhang zwischen Schwierigkeit und Trennschärfe/Homogenität ist meist umgekehrt U-förmig

Mittlere Schwierigkeit und Trennschärfe

          --> mittlere Werte (P = 50) bedeuten maximale Streuung der Itemscores

          --> ausreichende Streuung ist eine praktische (keine theoretische!) Voraussetzung für hohe Korrelationskoeffizienten

          ohne Variation einer Variablen gibt es auch keine Kovariation mit dieser Variablen

  • > mittlere Schwierigkeitsindices begünstigen hohe Trennschärfe- und Homogenitätsindices i.S. der KTT (garantieren sie aber nicht)

extreme/unterschiedliche Schwierigkeit und Trennschärfe

  • extreme Werte (P zwischen 5-10 oder 90-95) implizieren eine geringere Streuung der Itemscores

          eingeschränkte Streuung vermindert meist die Korrelation

  • extrem unterschiedliche Werte von P sind mit hohen (positiven) Interkorrelationen der Items meist nicht vereinbar

           Beispiel: N = 10 Vpn, 2 Items

            Item 1, Itemscores: 1, 0, 0, 0, 0, 0, 0, 0, 0, 0

            Item 2, Itemscores: 1, 1, 1, 1, 1, 1, 1, 1, 1, 0

            Schwierigkeitsindices: PItem1 = 10, PItem2 = 90

            Korrelation: r = 0.11

  • extreme/unterschiedliche Schwierigkeitsindices verhindern hohe Trennschärfeindices sowie eine hohe Homogenität der Skala (i.S. der KTT)

 

Itemkennwerte 

Itemselektion: Grundregeln 

Schwierigkeitsindex

  • Möglichst breite Streuung der Schwierigkeitsindices einer Skala anstreben!

         --> Differenzierung der Probanden auch in den Randbereichen der Merkmalsausprägung gewährleisten!

         --> Weise (1975)

         niedrig: > 80

         mittel: 80 - 20

         hoch: < 20

Trennschärfeindex

  • Möglichst große Trennschärfeindices aller Items anstreben!

        --> Jedes Item sollte zur Differenzierung der Probanden durch den Testscore möglichst viel beitragen!

        --> Weise (1975) (part whole-korrigiert)

        niedrig: < .30

        mittel: .30-.50

        groß: > .50
Konflikt zwischen Schwierigkeit und Trennschärfe

  • Unterschiedliche Schwierigkeitsindices führten zu niedrigeren Iteminterkorrelationen und somit zu niedrigeren Trennschärfeindices
  • Forderungen nach unterschiedlichen Schwierigkeitsindices und hohen Trennschärfeindices schließen sich aus!

Empfehlung

  • Items mit niedriger Trennschärfe ausscheiden
  • Items mit hoher Trennschärfe beibehalten (gerade auch bei extremen Schwierigkeitsindices von P = 5-10 oder P = 90-95)
  • Itemselektion anhand des Selektionskennwertes

Itemkennwerte 

Selektionskennwert 

 

  • Lienert (1989) 

Sel = rit/2 x Std (x) 

Sel = Selektionskennwert

rit = Trennschärfeindex

x = Itemscore

p = Schwierigkeitsgrad = P/100

q = 1 - p

Std (x) = Wurzel aus p x q 

  • Zähler: Je größer der Trennschärfeindex rit, desto größer wird Sel. > Items mit großer Trennschärfe werden bevorzugt!

 

  • Nenner: Je extremer die Schwierigkeit eines Items, desto kleiner wird die Standardabweichung Std(x) und desto größer wird Sel. > Items mit extremer Schwierigkeit werden bevorzugt!
  • Selektionsregel: Das Item mit dem größeren Wert von Sel wird beibehalten.

Objektivität 

Gütekriterien: Formen 

  • Kriterien zur Beurteilung von Tests sind nicht verbindlich definiert.
  • Kriterienkatalog des Testkuratoriums der Föderation Deutscher Psychologenverbände:

Kriterien zu den Testgrundlagen

z.B. theoretische Grundlagen, Nachvollziehbarkeit der Testkonstruktion

Kriterien zur Testdurchführung

z.B. Durchführungsobjektivität, Transparenz, Zumutbarkeit

Kriterien zur Testverwertung

z.B. Auswertungsobjektivität, Zuverlässigkeit, Gültigkeit

Kriterien zur Testevaluation

z.B. Ökonomie, Fairness, Vergleichbarkeit

Kriterien zur äußeren Testgestaltung

z.B. Verständlichkeit des Testmanuals und der Testmaterialien

Objektivität 

Gütekriterien: Formen 2 

 

  • DIN 33430 zur Eignungsbeurteilung

           Normierung der Bewerberauslese durch Leistungstests

          „Verbraucherschutz“

  • Hauptgütekriterien

         Objektivität

         Reliabilität

        Validität

  • Nebengütekriterien

        Normierung

        Testfairness

Objektivität 

Objektivität: Definition und Formen 

  • Objektivität = Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind
  • Objektivität kann in verschiedenen Phasen der Testung gefährdet sein

         Durchführung, Auswertung, Interpretation

  • Formen der Objektivität

         Durchführungsobjektivität

         Auswertungsobjektivität

        Interpretationsobjektivität

 

Objektivität 

Gefährdung und Gegenmaßnahmen 

Gefährdung

  • unterschiedliche Instruktionen
  • unterschiedliche Launen des Testleiters, Auswerters, Gutachters,…

Gegenmaßnahmen: 

– maximale Standardisierung der Testsituation

  • identische Testmaterialien und Zeitvorgaben
  • identische Instruktionen (schriftliche Vorgabe oder auswendig gelernt)
  • Regeln, wie auf Nachfragen oder Störungen reagiert wird
  • minimale soziale Interaktion zwischen Testleiter und Testperson

– maximale Standardisierung der Testauswertung

– Interpretation mittels statistischer Regeln

  • Ermittlung der individuellen Position eines Probanden in der Population anhand von Normtabellen, z.B. IQ = 130 >> Prozentrang 97.7

Objektivität 

quantitative Stimmung 

 

quantitative Bestimmung

  • Theorie:
  • jeder Proband wird von verschiedenen Testleitern mit demselben Verfahren untersucht, ausgewertet bzw. interpretiert
  • Objektivität = (mittlere) Korrelation der Testergebnisse zwischen verschiedenen Testleitern

         – Unterschiedlich „strenge“ Bewertungen durch die Testleiter > Mittelwertsvergleiche, Intraklassen-Korrelation

  • Praxis:
  • mehrfach wiederholte Testdurchführung bei denselben Probanden kaum sinnvoll
  • üblicherweise selten quantitativen Angaben
  • Bewertung der Objektivität anhand von Plausibilitätserwägungen

Reliabilität 

KTT - Latente Variablen 

Ausgangspunkt: Zufallsvariablen für eine Person

  • Die konkrete Person „Adam“ wird wiederholt aus einer Population von Personen U gezogen.
  • Mit der Person wird immer wieder derselbe Test durchgeführt.
  • Es resultieren die Testwerte Yi (= „Zufallsvariable“)
  • Diese Werte sind mit unsystematischen Messfehlern behaftet und weisen deshalb eine intraindividuelle Verteilung auf.

True-Score (wahrer Wert) der Person

  • Der True-Score "tau"Adam der Person „Adam“ wird definiert als bedingter Erwartungswert von Yi, gegeben die Person „Adam“:


                    "tau" Adam := E(Yi/U = Adam)

Fehlerwerte

  • Die Abweichungen der Testwerte Yi vom True-Score "tau" Adam werden definiert als Fehlerwerte "epsilon"i:

"epsilon"i := Yi - "tau"Adam = Yi - E(Yi/U = Adam)

 

Reliabilität 

KTT- Konsequenzen

  • Die True-Score-Variable "tau"i kann als als Regression der Testvariablen Yi auf die Personen U aufgefasst werden. 

Yi= "tau"i+ "epsilon"i= E (Yi/U)+ "epsilon"i 

  • Prädiktor: Personen U 
  • Kriterium: Testvariable Yi 
  • vorhergesagte Werte: Regression "tau"i := E(Yi/U)
  • Residuum: Fehlervariable "epsilon"i

• Die Testvariablen Yi lässt sich also additiv zerlegen in ihre TrueScore-Variable "tau"i und ihre Fehlervariable "epsilon"i

Reliabilität 

KTT- Konsequenzen II

Wie für alle Regressionen gelten auch hier die üblichen Eigenschaften:

  • Der Erwartungswert des Residuums ist null --> E("epsilon"i)=0 
  • Vorhergesagter Wert und Residuum korrelieren zu null --> Cov("epsilon"i, "tau"i)= 0 
  • Achtung: diese Konsequenzen können in keiner empirischen Anwendung falsch sein! 

Reliabilität 

KTT. Konsequenzen III 

 

  • Die Varianz der Testvariablen Yi lässt sich additiv zerlegen in die Varianzen der True-Score-Variablen und Fehlervariablen:  Var(Yi) = Var ("tau"i)+ Var ("epsilon"i)

Reliabilität 

Reliabilitätskoeffizient 

 

  • Der Reliabilitätskoeffizient ist definiert als der Anteil der Varianz einer Testvariable Yi, der auf die Varianz der True-Score-Variable "tau"i zurückgeführt werden kann:

          Rel(Yi) = Var("tau"i)/Var(Yi) = Var("tau"i)/Var ("tau"i)+ Var("epsilon"i)

  • maximaler Wert: für Var("epsilon"i)=0 --> Rel(Yi)= 1 
  • minimaler Wert: für Var("epsilon"i)= unendlich --> Rel(Yi)= 0 
  • Der Reliabilitätskoeffizient hängt offensichtlich von zwei Faktoren ab:

             -Varianz der True-Score-Variable > Stichprobe!

              -Varianz der Fehlervariable > Test!

  • „Reliabilität“ ist keine Eigenschaft eines Tests!
  • „Reliabilität“ ist eine Eigenschaft einer Zufallsvariable!
  • Zur Berechnung des Reliabilitätskoeffizienten muss die Varianz der True-Score-Variablen bekannt sein.
  • ... ist sie aber nicht! Der Reliabilitätskoeffizient kann also niemals berechnet werden!
  • ... aber er kann unter bestimmten Annahmen geschätzt werden!   (> „Messmodelle“)

Reliabilität 

Schätzung des Reliabilitätkoeffizienten

Schritt 1: doppelte Messung 

Y1 = tau1+epsilon 1 --> Var (Y1)= Var(tau1)+Var(epsilon1)

Y2= tau2+epsilon2 ---> Var(Y2)= Var(tau2)+Var(epsilon2) 

Schritt 2: Annahmen

1) beide True-Scores sind identisch 

tau1 = tau2 

--> Gleichungen vereinfachen sich 

Y1 = tau + epsilon1 --> Var(Y1) = Var(tau) + Var(epsilon1)

Y2 = tau + epsilon 2 --> Var(Y2) = Var(tau) + Var(epsilon 2) 

2) Fehler sind untereinander unkorreliert 

--> Cov(epsilon 1, epsilon 2) = 0 

--> Var (tau) ist berechenbar 

---> Var (tau) = Cov (Y1,Y2) 

---> Modell essentiell tau-äquivalenter Variablen ist ein Messmodell 

--> Reliabilitätsschätzung: 

Rel (Y1) = Cov (Y1, Y2)/Var (Y1) 

Rel (Y2) = Cov (Y1, Y2)/Var (Y2)

 

 

Reliabilität 

Praktische Realisierung der "doppelten Messung" 

  • Wiederholte Messung mit demselben Test (Retest-Methode)
  • Messung mit zwei „parallelen“ Tests (Paralleltest-Methode)
  • Halbierung des Tests (Testhalbierungs-Methode)

Reliabilität 

Retest - Methode

 

Jeder Proband wird mit einem bestimmten Zeitintervall zweimal mit exakt demselben Test untersucht (es resultiert Y1 und Y2).

--> Annahme 1: essentielle tau-Äquivalenz tau1 =  tau2 =: tau

  • Bedeutung der Annahme

           --> Annahme der absoluten zeitlichen Stabilität des True-Scores!

           --> Annahme, dass es keine Testwiederholungs-Effekte gibt!

  • Verletzung der Annahmen

          --> Falls sich die True-Scores der Probanden zwischen den beiden Messgelegenheiten unsystematisch verändern, reduziert sich die Kovarianz zwischen Y1 und Y2

          --> Konsequenz:  Rel (Yi) wird unterschätzt

  • Verletzung der letzteren Annahme

          --> Falls sich die True-Scores der Probanden zwischen den beiden Messgelegenheiten systematisch verändern, erhöht sich evtl. die Kovarianz zwischen Y1 und Y2

Konsequenz: Rel (Yi) wird überschätzt

  • Bewertung: diese Annahme muss stets bedacht werden!

  ---> Annahme 2: unkorrelierte Fehler Cov(epsilon1, epsillon2) = 0

  • Bedeutung der Annahme

       --> Probanden-spezifische Fehler wiederholen sich nicht!

       --> Fehler sind nicht systematisch bezüglich Personen!

  • Verletzung der Annahme

        --> Falls die Fehler zwischen den beiden Messgelegenheiten positiv korrelieren, erhöht dies die Kovarianz zwischen  Y1 und Y2

        --> Konsequenz:  Rel (Yi) wird überschätzt

  • Bewertung: technische Annahme, könnte aber verletzt sein

Reliabilität 

Retest- Methode: Wahl des Zeitraums 

Dilemma 

Option 1

  • Erinnerungs- und Übungseffekte sollen vermieden werden (um Annahme der essentiellen tau-Äquivalenz nicht zu gefährden)
  • besonders bei Leistungstests!
  • also möglichst langes Zeitintervall wählen!

Option 2

  • wahre Veränderungen des zu messenden Merkmals sollen nicht auftreten (um Annahme der essentiellen -Äquivalenz nicht zu gefährden)
  • gilt für alle Tests!
  • also möglichst kurzes Zeitintervall wählen!

Reliabilität 

Retest-Methode: Bewertung 

 

  • Retest-Methode besonders angemessen bei Persönlichkeitstests (wegen hoher Stabilität der Merkmale)
  • Retest-Methode umso problematischer bei Leistungstests, je mehr die Probanden von einer Testwiederholung profitieren können durch Übungs- und Lerneffekte

           --> reine Speed-Tests (z.b. d2): wenig problematisch; Power- und Mischtests: problematischer

Reliabilität 

Paralleltest-Methode 

 

  • Jeder Proband wird einmal mit zwei „parallelen“ Formen des Tests untersucht (es resultiert Y1 und Y2).

Annahme 1: essentielle tau-Äquivalenz

  • Bedeutung der Annahme

           --> Beide Tests messen (trotz unterschiedlicher Items) exakt denselben True-Score!

  • Verletzung der Annahme

           --> Falls sich die True-Scores der Probanden zwischen den beiden Parallelformen unsystematisch unterscheiden („beide Tests messen nicht exakt denselben True-Score“), reduziert sich die Kovarianz zwischen Y1 und Y2 • Konsequenz: 

           --> Rel (Yi) wird unterschätzt

           --> auch bei Parallel-Tests können Übungs- und Lerneffekte auftreten!

  • Bewertung: diese Annahme muss stets bedacht werden!

Annahme 2: unkorrelierte Fehler

  • Bedeutung der Annahme

         --> Probanden-spezifische Fehler wiederholen sich nicht!

         --> Fehler sind nicht systematisch bezüglich Personen!

  • Verletzung der Annahme

         --> Falls die Fehler zwischen den beiden Parallelformen positiv korrelieren, erhöht dies die Kovarianz zwischen  Y1 und Y2 

         --> Rel (Yi) wird überschätzt

  • Bewertung: eher technische Annahme

        --> aber: Fehlerübertragung (error propagation)

        --> z.B. situative Faktoren falls beide Parallelformen in derselben Situation bearbeitet werden (Baustellenlärm bei Konzentrationstest) oder Nervosität einer Person

 

 

Reliabilität 

Paralleltest- Methode 

 

  • „Parallelität“ von Testformen

           - gleiche Mittelwerte

           - gleiche Standardabweichungen

           - Korrelationen nahe 1 --> zwischen den wahren Werten per Definition 1

  • Herstellung von parallelen Testformen ist schwierig

         - besonders bei eng begrenzten Eigenschaften

         - Universum der möglichen Items ist begrenzt

  • Meist gibt es keine streng parallelen Testformen!
  • Ausnahme: reine Speed-Tests (z.B. d2)

           - Items innerhalb eines Tests sind sehr ähnlich oder sogar identisch

           - derselbe Test kann als „Parallelform“ aufgefasst werden

           - Retest-Methode ist dann dasselbe wie Paralletest-Methode

Reliabilität 

Testhalbierungmethode 

 

  • Jeder Proband wird einmal mit einem Test untersucht.
  • Die Items werden auf zwei gleichgroße Test„hälften“ aufgeteilt (es resultiert Y1 und Y2).

Reliabilität 

Aufteilungsmethoden (Power- und Mischtests) 

Split-Half

  • Testhälfte 1 = erste Hälfte aller Items
  • Testhälfte 2 = zweite Hälfte aller Items

Odd-Even-Split

  • Testhälfte 1 = alle Items mit ungerader Nummer
  • Testhälfte 2 = alle Items mit gerader Nummer

Random Split: zufällige Aufteilung

Aufteilung über Itemkennwerte

  • Paarlinge von Items mit gleicher Schwierigkeit/Trennschärfe bilden
  • Zufällige Zuweisung von einzelnen Items der Paarlinge auf beide Testhälften

Reliabilität 

Aufteilungsmethoden (Speed Test)

  • Testscore = Anzahl der gelösten Items
  • Problem: übliche Aufteilungsmethoden lassen sich nicht anwenden
  • Lösung: Halbierung nach der Testzeit

Reliabilität 

Testhalbierungsmethode- Annahmen

Annahme 1: essentiellen tau-Äquivalenz 

  • Bedeutung der Annahme

          --> Beide Testhälften messen (trotz unterschiedlicher Items) exakt denselben True-Score!

  • Verletzung der Annahme

          --> Falls beide Testhälften nicht exakt denselben True-Score messen, reduziert sich die Kovarianz zwischen Y1 und Y2 

         --> Rel (Yi) wird unterschätzt

  • Bewertung: diese Annahme muss stets bedacht werden

Annahme 2: wie bei anderen Methoden 

 

Reliabilität 

Testhalbierungsmethode- Probleme

Besonderes Problem

  • Die Methode gestattet zunächst nur eine Schätzung der Reliabilität der Testhälften
  • Gesucht ist aber eine Schätzung der Reliabilität des gesamten Tests
  • Lösung: Hochrechnung der Reliabilität für gesamten Test mit Spearman-Brown-Formel

Reliabilität 

Testhalbierungsmethode- Beurteilung 

  • zahlreiche Störfaktoren lassen sich ausschließen

          --> Schwankung der Motivation, Stimmung, Aufmerksamkeit

          --> wahre Veränderungen des Merkmals

         --> Störfaktoren wirken auf beide Testhälften gleichermaßen

  • Methode kommt der Beschreibung einer instrumentellen Messgenauigkeit sehr nahe.
  • Problem: beide Testhälften müssen äquivalent sein!