..


Fichier Détails

Cartes-fiches 120
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 14.03.2018 / 08.08.2018
Lien de web
https://card2brain.ch/box/20180314_diagnostik_i
Intégrer
<iframe src="https://card2brain.ch/box/20180314_diagnostik_i/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Trennschärfe und Schwierigkeitsindex

theoretisch könnte jedes Item unabhängig von seiner Schwierigkeit (außer P = 0 und P = 100) eine Trennschärfe von rit = 1 erreichen

  • praktisch treten aber nicht alle Trennschärfen bei gegebener Schwierigkeit gleich häufig auf
  • am effizientesten: P = 50 und rit = 1, weil größtmögliche Differenzierung zwischen Probanden
    • bei hoher Schwierigkeit kann man nicht gross Differenzieren, da es nur wenige gelöst haben
  • Items mit mittlerer Schwierigkeit differenzieren am besten zwischen Probanden, die ein Item lösen und solchen die ein Item nicht lösen
    • Beispiel: unterschiedliche Trennschärfen bei gleicher Schwierigkeit
      • Bearbeitung eines Mittelschweren Items eines Intelligenztests 
      • zwei Gruppen von Pbn (Löser und Nicht-Löser)
      • gute Trennschärfe, wenn jeder Pb aus der Gruppe der Löser einen IQ über 100 und jeder Pb aus der Gruppe der Nicht-Löser einen IQ unter 100 hat
      • gerine Trennschärfe, wenn sich die Gruppen der Löser und Nicht-Löser nur geringfügig in ihren IQs unterscheiden
      • TS = 0 >> Antworten beim Item sind zufällig, es misst etwas anderes als IQ (zB gleich viele aus beiden Gruppen können das Item lösen)
        • wenn Schwierigkeit 0 ist TS gleich 0, wenn Schwierigkeit 100, dann TS auch 0
      • TS = negativ >> Dann können vpn mit eigentlich tiefem Wert das Merkmal lösen und die anderen icht 

Trennschärfe und Itemschwierigkeit

Bei Intervallskalierung: Reichen die Itemschwierigkeiten an den Rand der Antwortskala, entstehen Boden- oder Deckeneffekte >> man kann nicht mehr differenzieren

Trennschärfe und Itemvarianz

Eine hohe Itemvarianz begünstigt eine hohe Trennschärfe

Trennschärfe und Item-Interkorrelationen

Hohe Trennschärfen setzen hohe Item-Interkorrelation voraus.

Die Variation von Itemschwierigkeiten führt zu einer Abnahme der Interkorrelationen (Homogenität) zwischen den Items und zu einer Abnahme der Trennschärfe

  • Bei gewissen Tests, braucht man schwierige Items um zu differenzieren, dann nimmt man eine tiefere Trennschärfe in kauf 

Homogenität

Ziel: Items eines Tests erfassen dasselbe Merkmal

  • aber — verschiedene Items erfassen unterschiedliche Facetten, Überlappung der Facetten: Homogenität
  • >> überlappung der Facetten >> Homogenität

—> die Homogenität ist ein Mass dafür, inwiefern die Items eines Tests dieselbe Eigenschaft messen

  • Homogenität = Beziehung der Items unter sich
  • Trennschärfe = Beziehung eines Items zum Gesamttest
    • Homogenität ist Voraussetzung für hohe Trennschärfe, aber nicht für einen Test
    • Hohe Trennschärfe ist begünstigt, wenn Homogenität gegeben ist 
    • es gibt aber auch Heterogene Merkmale und die muss man mit heterogenen Items messen und dort bekommt man tiefere TS 
  • Homogenität im Sinne von >> Interkorrelation, Faktorenanalyse, Rasch-Modell (IRT)

Homogenität im Sinne von Interkorrelationen, Faktorenanalyse und Rasch-Modell

Interkorrelation: Mittelwert der Korrelation = Homogenität (über Fishers z- Transformation)

 

Faktoranalyse basiert auf der Interkorrelationsmatrix

  • FA ordnet Variablen gemäss ihrer korrelativen Beziehungen in Gruppen (Dimensionalität): Skalen, Subskalen
  • jedes Item erhält eine Faktorladung auf jedem Faktor
  • homogene Items laden auf demselben Faktor vergleichsweise hoch

 

Im Raschmodell kann getestet werden, ob den beobachtbaren Variablen genau nur ein latentes Konstrukt zugrunde liegt

 

Itemselektion

Ziel — Die guten Items für einen Test identifizieren

  • Perspektiven:
    • Konstrukt (Inhalt) >> Erfasst das Item das Merkmal 
    • Durchführung (Zumutbarkeit) >> Sind es nicht zu viele? Keine Items die inhaltlich überfordern
    • Kosten-Nutzen-Abwägung (Effizienz) >> Erziehlter Nutzen ?

>> Statistische Kriterien (Reliabilität, Validität, Schwierigkeitsindex, Trennschärfe)

>> Inhaltliche Kriterien 

Statistische Kriterien der Itemselektion

  • ein Item muß i. d. R. eliminiert werden, wenn 
    • Trennschärfe < .20 oder negativ (wichtigstes Kriterium)
    • Schwierigkeit zu hoch oder zu niedrig
    • Streuung deutlich niedriger als bei anderen Items

>> aber man muss immer die Inhaltlichen Dinge abklären >> Manchmal braucht man Schwierige Items etc 

  • häufen sich Items in unerwünschten Schwierigkeitsbereichen ?
  • besonders bei Power-/Niveautests: schwierige und leichte Aufgaben in etwa gleichem Umfang vorhanden?
  • Übergänge in der Schwierigkeit zwischen den Items zu gross?
    • bei aufsteigenden Items, will man nicht zu grosse Abstände 

Inhaltliche Kriterien der Itemselektion

  • beibehalten trotz schlechter Itemkennwerte:
    • (zu) leichte Items als Eisbrecher
    • anschauliche Repräsentation eines Merkmals
      • die sollten meist gute Kennwerte haben, ist aber möglich schlechte Werte zu erhalten 
    • keine Alternativen mit besseren statistischen Kennwerten verfügbar
    • bestimmter Itemtyp (Antwortmodi)
    • Antworttendenzen (positive/negative Formulierungen)
      • gilt für Umgepolte Items, die haben nicht die besten Kennwerte, will man aber manchmal trotzdem behalten 
    • Erfassung extremer Merkmalsausprägungen >> zB Suizidtendenzen 

 

  • streichen trotz guter Itemkennwerte:
    • Verzicht, wenn genügend andere Items mit gleichem Inhalt
    • ungenügende theoretische Einordnung
    • Verletzung ethischer Normen
    • Verzerrungstendenzen (z. B. soziale Erwünschtheit)

Testwertverteilung

  • Testwert eines Probanden bestimmen
    • Itemrohwerte je nach Test aufsummiert oder gemittelt
    • Persönlichkeitstests: Skalen oder Untertestwerte bilden
      • Skala immer umcodieren damit man einen Startwert von 0 hat! 
    • Leistungstests: Anzahl richtig gelöster Aufgaben
  • Ratekorrektur (nur bei Leistungstests) — Bei Mehrfachwahlaufgaben kann ein Item auch durch  Raten richtig gelöst worden sein, hier kann ein Probandenrohwert mit Zufallskorrektur berechnet werden

Testwertverteilung - Masse der zentralen Tendenz und Streuung

Masse der zentralen Tendenz 

  • Modalwert (Mo oder D): Wert kommt am häufigsten vor
  • Median (Md oder x~): steht in der Mitte, teilt die Stichprobe in zwei gleiche Hälften zu je 50 %
  • arithmetischer Mittelwert (M oder x ̅): die an der Stichprobengrösse relativierte Summe der Messwerte

Streuungs-/Dispersionsmasse

  • Varianz
  • Standardabweichung
  • Spannweite (Range): Höchster - niedrigster Wert
  • Interquartilabstand: QA = P75 - P25

Verteilungsanalysen

Eigenschaften der Normalverteilung

  • Glockenförmiger Verlauf >> Symmetrie
  • Arithmetischer Mittelwert, Modalwert und Median sind fast identisch
  • zwischen einer (zwei) Standardabweichung(en) links und rechts vom Mittelwert liegen zirka
    68 (95) Prozent der Probanden

Ursachen für Abweichungen von der Normalverteilung

  • mangelhafte Konstruktion des Tests
    • linksschief: Test zu einfach >> Deckeneffekt
    • rechtsschief: Test zu schwierig >> Bodeneffekt 
    • Korrektur: Ergänzung von Items im unterrepräsentierten Schwierigkeitsbereich oder Normalisierung
  • heterogene Stichprobe
  • Merkmal in Population nicht normalverteilt

 

Verteilungen -- Schiefe und Exzess (Kurtosis)

Linksschief >> Sch < 0

  • einfacher Test, da viele hohe Testwerte 

Rechtschief >> Sch > 0

  • schwieriger Test, viele tiefe Testwerte 

Exzess (Kurtosis)

  • Mass für die Schmal- oder Breitgipfligkeit einer Verteilung (im Vergleich zur NV)
    • Exzess < 0 (negativ): breitgipflige (flache) Verteilung
    • Exzess = 0: Normalverteilung
    • Exzess > 0 (positiv): schmalgipflige (hoch und spitz) Verteilung

  >> Schiefe und Exzess sind wichtig um Verteilungsvoraussetzungen von Items zu prüfen, wenn sie weiteren statistischen Analysen unterzogen werden sollen

Normalisierung

  • Die Testwerte xv werden so transformiert, dass die Testwertverteilung der transformierten Testwerte x ́v sich der Normalverteilung annähert
  • Einfluss der Ausreisser wird reduziert
  • Annahme — Merkmal ist normalverteilt
  • Unterschiedliche Verfahren zur Normalisierung
    • Flächentransformation (verteilungsfrei)
    • nichtlineare Transformationen, wenn rechtsschief (zu schwierig)
      • Logarithmierung
      • Square Root
      • Reziprok

 

KTT

Testtheorien befassen sich mit 

  • der Frage, wie die empirischen Testwerte und die zu messenden (tatsächlichen) Merkmalsausprägungen zusammenhängen
  • den Anforderungen, denen ein Test genügen muss, um aufgrund eines Testergebnisses auf die tatsächliche Ausprägung des getesteten Merkmals schliessen zu können

 

  • Aus diesen Vorgaben können die Gütekriterien (Validität etc) abgeleitet werden 
  • Theorien sollen erklären und nicht nur beschreiben 
    • erklärt die systematischen Zusammenhänge zwischen Items durch latente Personen-Variable

 

  • psychologisches Konstrukt beeinflußt Testverhalten, das Testverhalten wiederum die Testauswertung und darüber auch das psychologische Konstrukt
  • KTT befaßt sich mit der Messung und deren Ungenauigkeit
  • ist eine Messfehlertheorie

KTT als Messfehlertheorie 

 

  • Messwert (x) = wahrer Wert (τ) + zufälliger Messfehler (ε)
  • Hauptannahme — Testwert X enthält sowohl wahre Werte, als auch (Zufalls-) Fehlerwerte
    • man geht davon aus, dass es Zufällige Feher gibt 
  • wahrer Wert konstant, Messfehler variiert
  • Reliabilität/Präzision eines Tests lässt sich sowohl als Messgenauigkeit als auch als Messfehler betrachten
  • Beide Konzepte beziehen sich nicht auf den Inhalt des Tests, Messfehlertheorie macht keine Aussage darüber, wie Leistung oder Antworten zustandekommen
    • stellt keine direkte Verbindung her zwischen Fähigkeit, Merkmal oder Eigenschaft und Itembeantwortung

Probabilistische Testtheorie IRT

befasst sich direkt mit dem Zusammenhand von Testverhalten und dem zu erfassenden psychischen Merkmal

  • untersucht Antwortmuster
  • Beziehung zwischen Personenfähigkeit/ Eigenschaftsausprägung und Itemlösungswahrscheinlichkeit ist probabilistisch
  • testet direkt, ob Antwortmuster durch ein latentes Konstrukt zustande kommen (und zwar genau EIN Konstrukt)

Axiome der KTT 

 

  • Problemlage — Wie kann aus einer Anzahl Verhaltensbeobachtungen xvi von Versuchspersonen v in bestimmten Situationen i auf den wahren Wert (true score) τv eines Persönlichkeitsmerkmals geschlossen werden?
  • Axiom — formal-logische, nicht falsifizierbare Relationen zwischen definierten Modellkomponenten — zentrale Grundannahme, die sich nicht weiter ableiten und empirisch überprüfen lässt; Brauchbarkeit wird über Empirie definiert

1. Existenzaxiom

2. Verknüpfungsaxiom

3. Unabhängigkeitsaxiom

4. Zusatzannahmen 

Axiome der KTT 

1. Existenzaxiom

— Es existiert ein wahrer Testwert (true score) τvi als Erwartungswert einer Messung

  • wenn die Person ein bestimmtes Merkmal hat, wird sie auch wenn man das ganze unzählige male misst, immer das Merkmal haben 

xvi τvi = E (xvi)

τvi = wahrer Wert (true score) einer Person v im Item i eines Tests

xvi = Messwert einer Person v im Item i eines Tests

Erwartungswert = Mittelwert einer theoretischen Verteilung von Zufallsvariablen mit allen möglichen Realisationen, die insgesamt die (in der Regel) unendliche Grundgesamtheit oder Population dieser Variablen ausmachen

Axiome der KTT 

2. Verknüpfungsaxiom 

— Ein beobachteter Meßwert x setzt sich zusammen aus einem konstanten wahren Wert τ und einem zufälligen Fehlerwert ε.

  • wenn man bei einer Person einen Test immer wieder durchführt, wird sie nicht immer den gleichen Wert erhalten, da er sich aus dem eigentlichen wahren Wert und einen zufälligen Fehlerwert der variiert 

εvi = Meßfehler der Messung mit Item i an Person v

xvi = τvi + εvi

Umgekehrt gilt: Der zufällige Fehlerwert ε ist die Differenz zwischen beobachtetem Testwert x und dem wahren Wert τ einer Person. Er repräsentiert alle unkontrollierbaren, unsystematischen (!) Störeinflüsse:

εvi = xvi – τvi

Axiome der KTT 

Verbindung von 1. und 2. Axiom

  • bekannte Größe in Axiom 1 und 2: beobachteter Wert xvi
  • unbekannte Größen in Axiom 1 und 2: wahrer Wert τvi und Fehlerwert εvi (Fehlervarianz σ2), können aus den Beobachtungen nicht direkt erschlossen werden, sind aber schätzbar

 

  • aus der Kombination von Existenz- und Verknüpfungsaxiom ergibt sich, daß der Erwartungswert des Zufallsfehlers εvi gleich null ist:

E (εvi) = 0

  • auch Summe und Mittelwert der Fehler sind gleich null

Fehlerwerte sind zurückzuführen auf

  • Gedächtnis, Erinnerung 
  • Stimmung Motivation
  • Konzentration, Müdigkeit
  • Rateeffekte
  • Lärm 
  • Testanwendung 

Konzept des Messfehlers -- Messfehler umfassen Gesamtheit aller unsystematischen und nicht kontrollierbaren oder vorhersagbaren potentiellen Einflussgrössen auf das Messergebnis 

  • der Erwartungswert des Testwertes einer Person xv (Summe aller Items eines Tests) ist der wahre Wert tv (Summe der wahren Werte der Items)

E(xv) = τv

Axiome der KTT 

3. Unabhängigkeitsaxiom

 

Messfehler und wahrer Wert korrelieren nicht systematisch miteinander („Nullkorrelation“):

Corr (τvi, εvi) = 0

  • die Höhe des Meßfehlers ε ist unabhängig vom wahren Ausprägungsgrad τ des getesteten Merkmals
    • Beispiel — Personen mit hoher Intelligenz machen gleich viele Zufallsfehler wie Personen mit niedriger Intelligenz >> Wird nicht durch Tagesform beeinflusst 

Axiome der KTT 

4. Zusatzannahmen 

die Messfehler einzelner Items und Personen sind unkorreliert

  • die Messfehler der Messungen mit den Items i und j von derselben Person v sind unabhängig voneinander — Corr (εvi, εvj) = 0
  • die Messfehler der Messungen mit demselben Item i von den Personen v und w sind unabhängig voneinander — Corr (εvi, εwi) = 0

Wenn man ein Paar zu etwas befragt, kann man nicht davon ausgehen, dass sie sich nicht gegenseitig beeinflussen 

Fazit Axiome der KTT

was nützt die Annahme xvi = τvi + εvi ?

  • ermöglicht Schätzung des durchschnittlichen Messfehlers eines Test, erleichtert Interpretation des beobachteten Wertes x
  • Messwertsumme wird als Punktschätzung des wahren Wertes gebraucht

>> Behelfslösung: Die Messwerte jeder Vp werden nicht wiederholt aus einer, sondern aus mehreren vergleichbaren Situationen erhoben; man misst das Merkmal mit mehreren Items.

  • Schätzung Fehlervarianz: Varianz der Fehler der Personen v, hilft bei der Interpretation, wie gut die gegebene Messwertsumme als Schätzung des wahren Wertes ist

>> Behelfslösung: Derselbe Test wird mehreren Vpn vorgelegt. Für Stichproben lässt sich die Varianz der Messwerte in wahre und Fehlervarianz zerlegen. >> Funktioniert also nur bei Gruppen 

Fazit -- Axiome der KTT 

Voraussetzungen 

  • Annahme xvi = τvi + εvi nützt nur bei folgenden Voraussetzungen:
    • bei jeder Vp variiert nur ε, τ aber bleibt invariant
      • bei jeder Vp gilt der wahre Wert als stabil;
      • würde er sich verändern, liesse sich die Variation nicht mehr eindeutig in wahre Anteile und Fehleranteile trennen
        —> daraus folgt: die KTT lässt sich nur auf stabile Merkmale (Traits) anwenden

 

  • Einschränkung die KTT ist nur für Werte definiert, für die die Berechnung von Differenzen sinnvoll ist:
    • nicht für kategoriale oder ordinale Daten
    • erst auf Intervallskalenniveau sind Differenzen sinnvoll definiert

Reliabilität als Kernkonzept der KTT

Definition und Varianzzerlegung

  • Messgenauigkeit eines Tests — Varianz eines Messwertes:
    • Varian kann zerteilt werden in wahre Varianz und Fehlervarianz 
  • Reliabilität eines Tests ist definiert als der Anteil der Varianz der wahren Testwerte an der Varianz der beobachteten Testwerte: 1 - Fehlervar / Testwertvar

 

  • Unrealiabilität ist definiert als der Anteil Fehlervarianz an der Varianz der beobachteten Testwerte 

Reliabilität als Kernkonzept der KTT

Reliabilitätsquotient τ/x

  • Reliabilität als Quotient aus der Varianz der wahren und der beobachteten Werte
  • Beispiele
    • Rel = .50: systematische (wahre) Varianz und Fehlervarianz bestimmen den beobachteten Wert zu je 50 % > schlecht da sie im gleichgewicht sind 
    • Rel = .80: beobachtete Varianz der Testwerte beruht zu 80 % auf systematischer wahrer Varianz (wahre Unterschiede) und zu 20 % auf Fehlervarianz > Besser
    • Rel = 1: der Test mißt völlig fehlerfrei
    • Rel = 0: der Test mißt gar nichts

Reliabilität als Kernkonzept der KTT

Wie kommt eine Schätzung der Reliabilität zustande?

Reliabilität als umbrella Begriff

>> Messgenauigkeit des Tests - inwiefern ist der Test frei von Messfehlern? >> Rückgrat des Tests

  • Testwertstabilität: wenn der relative Testwert von Personen bei wiederholter Messung immer gleich ist und/oder die Rangreihe immer gleich ausfällt; in der Praxis sind wiederholte Messungen jedoch selten realisierbar
    >> Behelfslösung: parallele Messungen erlauben Schätzung der Reliabilität (ergibt sich aus Unkorrelierbarkeit der Messfehler - Axiom)

— dazu braucht man die zentrale Annahme, dass E(ε) = 0 und dass zufällige Messfehler unkorreliert sind

 

Reliabilität als Kernkonzept der KTT

Standartmessfehler 

Ziel - wie gut ist schätzung des Wahren Wertes durch Testwert?

  • zur Beurteilung, wie gut die Schätzung des wahren Wertes ist, wird die Messfehlervarianz bzw. Reliabilität benötigt
  • Messfehlervarianz, bzw Reliabilität, erlaubt Berechnung SMF
  • Standardmessfehler erlaubt ein Konfidenz- (Vertrauens-) Intervall um den beobachteten Wert zu bilden (Bereich der Unsicherheit)
    • in diesem Bereich befindet sich der wahre Wert mit der zuvor bestimmten Wahrscheinlichkeit

Definition Standardmessfehler SMF: Anteil an der Standardabweichung eines Tests, der zu Lasten seiner Unreliabilität (1 – Rel) geht.

>> Standardabweichung der Verteilung der zufälligen unsystematischen Messfehler um den wahren Wert (SD(ε))

—> Je reliabler das Messinstrument, desto geringer der Standartmessfehler

—> je größer die Reliabilität, desto kleiner der Standardmessfehler

 

Reliabilität als Kernkonzept der KTT

Konfidenzintervall

Definition: kennzeichnet den Bereich eines Merkmals, in dem sich 95 % (bzw. 99 %) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben könnten.

  • Standardmessfehler erlaubt es, den Vertrauensbereich zu schätzen, innerhalb dessen bei gegebenem beobachtetem Wert (Messwert) der wahre Wert liegt >> KI = xv +/- zα/2 * SMF 
  • angenommene Irrtumswahrscheinlichkeit meist 5 %, sodaß zα/2 = 1.96 bei zweiseitiger Fragestellung
  • je geringer der Standardmeßfehler, desto größer die Reliabilität und desto schmaler das Konfidenzintervall
  • Konfidenzintervallbreite (KIB): Streuung in eine Richtung mal zwei

 

In einem Intelligenztest habe eine Person einen Testwer von 110 erzielt, Standartabweichung beträgt 15, Reliabilität .80

KI = 110 +/- 1.96 * 6.71 = 110 +/- 13.2

  • Breite KI beträgt 26.4
  • der wahre Wert liegt mit 95prozentiger Wahrscheinlichkeit zwischen 97 und 123
  • die Aussage, dass die Person einen höheren IQ als 100 hat, ist auf dem 5-%-Niveau nicht signifikant
  • man kann nicht mit statistischer Sicherheit sagen, ob die Person eine durchschnittliche oder überdurchschnittliche Intelligenz hat (α = 5 %), da der wahre Wert sowohl unter als auch über 115 liegen könnte
  • welchen Wert müsste die Person erreichen, um mit statistischer Sicherheit eine überdurchschnittliche Intelligenz zu haben? 115 + 13 = 128, daraus folgt 129

Kritik an der KTT

+ KTT hat sich in der Praxis bewährt, über 95 % der Testverfahren beruhen auf ihr + ökonomisch und praktisch

- reine Messfehlertheorie
- setzt Intervallskalierung voraus

- Grundannahme (x = τ + ε) ist nicht empirisch überprüfbar - der wahre Wert wird idealtypisch als invariant betrachtet - Eindimensionalität kann nicht nachgewiesen werden
- keine Stellungnahme zur Konstruktvalidität

  • Kennwerte stichprobenabhängig

Methoden der Reliabilitätsbestimmung 

  • Test-Retest-Reliabilität (Testwiederholung)
  • Paralleltest-Reliabilität (dieselbe Personenstichprobe bearbeitet zwei ähnliche Testversionen)
  • Split-half-/Testhalbierungsreliabilität (Items werden nachträglich in zwei Testhälften geteilt)
  • Interne Konsistenz/Cronbachs alpha (jedes Item wird als eigenständiger Testteil betrachtet, Verallgemeinerung der Split-half-Reliabilität)

 

  • statistisch beruhen alle Methoden auf Korrelationen und der Annahme der Domain-Sampling-Modelle der KTT:
    • es gibt ein Universum möglicher Items zu einem Merkmal
    • daraus lassen sich parallele Stichproben ziehen
    • Reliabilitätsanalyse: Schätzung, wie gross der Fehler ist, wenn anhand des Testwertes der wahre Wert geschätzt wird

—> je größer die Itemstichprobe bzw. je mehr Items, desto besser wird das Universum repräsentiert und desto höher die Reliabilität

Methoden der Reabilitäsbestimmung

Test-Retest-Reabilität 

Test-Retest-Reliabilität

Ausmass, in dem bei denselben Vpn und mit demselben Test die Ergebnisse mehrerer Messungen  miteinander korrelieren (Autokorrelation)
>> Bleibt Rangfolge gleich?

  • Berechnung:
    • Kovarianz wird als Schätzung der wahren Varianz gedeutet: das Produkt der Standardabweichungen wird als Schätzung der beobachteten Varianz gedeutet
    • Was übrig bleibt ist der Fehler 
  • Voraussetzung: Testwert- und Fehlervarianz konstant
  • Anwendung bei Speedtests und Persönlichkeitstests (bei stabilen Merkmalen)
  • Probleme:
    • zeitaufwendig und teuer
  • Einflussfaktoren
    • Testabstand (Retest-Intervall)
      • falls zu kurz, höhere Wahrscheinlichkeit für Carry-over-Effekte
      • falls zu lang, sind Merkmalsveränderungen möglich —> niedrige Reliabilität
    • Carry-over-Effekte (Transfereffekte)
      • Gedächtniseffekte
      • Übungs- und Lerneffekte
    • Merkmalsfluktuation: niedrige Reliabilität, wenn das Merkmal nicht stabil ist (zB bei Veränderung durch alter), aber: kein Einfluss auf Retest-Reliabilität bei systematischer Merkmalsveränderung (Linien verlaufen parallel von 1. Testzeitpunkt zu 2. Testzeitpunkt)
      • Unsystematische Veränderungen - Lärm beim 2. Testen, dass nicht alle Probanden gleich stark beeinflusst 

Methoden der Reliabilitätsbestimmung

Paralleltest-Reliabilität

Korrelation zwischen Test A und seinem Paralleltest B bei denselben Probanden (!)
>> Nicht der gleiche Test, aber Items aus dem selben "Universum"

  • Berechnung: Korrelation der beiden Tests
  • Voraussetzung: Test A und B sind äquivalent
    • gleiche Testwertvarianz
    • gleiche Fehlervarianz
    • das gleiche Merkmal wird mit der gleichen Genauigkeit (Reliabilität) und der gleichen Validität gemessen
  • Anwendung bei Power-/Niveautests und Speedtests, für Persönlichkeitstests zu aufwendig zu konstruieren
  • Probleme:
    • Schwierigkeit, einen äquivalenten Test zu konstruieren
      • deskriptive Überprüfung, ob die wichtigsten Kennwerte äquivalent sind: Verteilungskennwerte (Mittelwerte, Varianzen, Kovarianzen) sowie Reliabilität und Validität der Einzeltests
      • besser: konfirmatorische Faktorenanalyse > geht über KTT hinaus > Modellfit
  • Einflussfaktoren:
    • Carry-over-Effekte vermindert, dennoch Übertragen von Lösungsprinzipien möglich: Testvorgabe ausbalancieren, Gruppe 1 erst Test A, dann Test B, Gruppe 2 umgekehrt (cross-over design)
    • Item-Unterschiede: dasselbe Merkmal mit ähnlichen, aber nicht identischen Items messen
    • Testabstand: sollte eher kurz sein
    • Reliabilität der einzelnen Testformen

Zusammenhang zwischen Reliabilität und Reliabilität der einzelnen Tests, Testformen oder Testteile

 

  • Reliabilität kann nur so hoch sein wie die Reliabilität der einzelnen Tests oder Testformen
  • maximal mögliche Korrelation zwischen zwei Tests/Merkmalen 
  • falls einer der beiden Tests weniger reliabel wäre, würde die Reliabilität der Parallelformen niedriger werden, und die tatsächliche Reliabilität der Testformen würde unterschätzt
  • es ist möglich, dass die Paralleltest-Reliabilität niedriger ausfällt als jede der beiden Testformen

Methoden der Reliabilitätsbestimmung

Split-half-(Testhalbierungs-)Reliabilität

Ein Test mit einer Gruppe von Probanden, die Hälften müssen Parallel sein 

  • Korrelation zwischen zwei Hälften desselben Tests bei denselben Vpn
    • Vorgabe eines einzigen Tests (einmalige Durchführung)
    • Bildung von zwei Testhälften
    • Bildung eines Test-Scores je Vp und Testhälfte
    • Korrelation der zwei Test-Scores
  • Voraussetzung: die Testteile sind wirklich äquivalent und gleich lang
  • Methoden der Aufteilung
    • zufällig (bei homogenen Items) — funktioniert nicht bei Prüfungen, bei denen die Items unterschiedlich schwierig sind
    • Itemzwillinge (bei heterogenen Items) — Items in ähnlicher Schwierigkeit/Inhalt paaren und dann zufällig A und B verteilen
    • Odd-even (Item 1 in Test A, Item 2 in Test B usw.) — zB bei aufsteigender Schwierigkeit
    • Aufteilung nach Testzeit (Vpn sollen markieren, wieviele Items sie geschafft haben, Aufteilung nach gleicher Testzeit)
  • Anwendung oft bei Speedtests, wenn Retest- und Paralleltest-Reliabilität unpraktisch sind (zB wenn 2x testen keinen Sinn macht)
  • Berechnung:
    • Korrelation der Testhälften
      • jede Hälfte hat nur die Hälfte der Aussagekraft des ganzen Tests
      • dh Halbtestkorrelation entspricht nur Reliabilität eines Tests halber Länge > Reliabilität wird in der Regel geringer bei sinkender Itemzahl 
    • >>> Spearman-Brown-Korrektur
      • Rel (2*l) = (2*Rel)/(1+Rel)

Spearman-Brown-Korrektur

 

  • Spearman-Brown-Korrektur wichtig für vorherige Abschätzung:
    • Wie hoch wird die Reliabilität, wenn ein Test um eine bestimmte Itemanzahl verlängert oder verkürzt wird?
    • Wieviele Items müssen einem Test hinzugefügt werden, um eine bestimmte Reliabilität zu  erreichen?

Wie verändert sich Reliabilität wenn man Itemzahl verändert 

  • Rel(k*l) =  (k*Rel) / (1 + (k-1) * Rel)
    • k = Itemzahl nach Korr. / Itemzahl vor Korr
  • k = 2, wenn Testlänge verdoppelt allgemein: wenn k > 1, wird Test verlängert
    • Zähler und Nenner ändern sich in unterschiedlicher Weise
    • bei Verlängerung:
      • Zähler nimmt stärker zu als Nenner
      • Anteil wahrer Varianz an beobachteter Varianz nimmt zu
      • Reliabilität steigt exponentiell

 

  • umgestellte Spearman-Brown-Formel zur Berechnung, wieviele Items für eine bestimmte Reliabilität benötigt werden:
    • k' = (Rel(k*l) * (1-Rel)) / (Rel * ( 1 - Rel ( k*l))
      • k' = k von Gewünschter Reliabilität 
      • Rel(k*l) = gewünschte Rel 
      • Rel = beobachtete Rel 
      • Itemzahl nach Korr = k' * ITemzahl vor 
        • Test mit 50 items und Reliabilität mit .7 ist sehr schlecht, nach Korrektur mit 86 immer noch nur .8 ist immer noch schlecht —> am Test arbeiten

Interne Konsistenz/Cronbachs alpha

Ausmass der Zusammenhänge der Items. Widerspiegelt das Aussmass, in dem eine Vp alle Items in gleicher Weise beantwortet

  • Erweiterung der Split-half-Reliabilität
    • ein Test wird in so viele Teile wie Items zerlegt, jedes Item wird als Testteil betrachtet - Berechnung des mittleren Split-half-Koeffizienten
  • Vorgehen: Vorgabe eines einzigen Tests, einmalige Durchführung
  • Voraussetzung: Test/Merkmal ist homogen (alle Items erfassen dasselbe Merkmal)
  • Anwendung
    • bei homogenen Merkmalen und einmaliger Messung (Power-/Niveautests und Persönlichkeitstests)
    • nicht bei heterogenen Tests, Speedtests oder Tests mit zunehmender Schwierigkeit
       
  • Berechnung: verschiedene Konsistenzkoeffizienten, die aber alle auf Interitem-Korrelationen basieren;
    • am häufigsten verwendet: Cronbachs alpha (rechnerische Verallgemeinerung der Splithalf)
    • falls nicht essentiell tau-äquivalent, entspricht Alpha der unteren Grenze 

       
  • >> alpha ist abhängig von der Anzahl Items und der Größe der Interitem-Korrelation
  • >> sind die Items unkorreliert, sind Itemvarianzen gleich Testvarianz und alpha gleich null
  • solange sie positiv korrelieren, nimmt alpha mit steigender Anzahl Items zu
  • der Cronbach-alpha-Wert der Skala kann durch den Ausschluss einzelner Items verbessert werden
  • Umpolung von Items hat keinen Einfluß auf Cronbachs alpha
  • alpha negativ — summe der Itemvarianz grösser als Testvarianz — Items korrelieren negativ

 

 

 

Rel. 

Interne Konsistenz/Cronbachs alpha

Interpretation

 

  • alpha kein Beleg für Eindimensionalität (alle Items erfassen dasselbe Merkmal)
    • alpha kann auch bei mehrdimensionalem Merkmal hoch ausfallen, solange die Dimensionen miteinander korrelieren
    • — alpha mißt nur Zusammenhänge, keine Divergenzen

>> Alpha ist ein Mass für interne Konsistenz

Tiefer oder negativer Cronbach-Alpha Koeffizient:

  • Items sind nicht eindimensional
  • geringe Probandenzahlen produzieren hohe Stichprobenfehler
  • Ausreisserwerte oder Inkonsistenzen in der Beantwortung führen zu negativen Kovarianzen
  • Kodierung von negativ gepolten Items sind mit positiv gepolten Items vermengt
  • Items messen etwas inhaltlich Verschiedenes und / oder Entgegengesetztes (ungeschickte, z.B. mehrdeutige Itemformulierung)

Überlegungen zu Reliabilität 

Wie reliabel ist reliabel 

>> Reliabilität sollte idealerweise so hoch wie möglich sein, aber

    • nicht alle Konstrukte sind gleich reliabel erfassbar (Stimmung vs. Intelligenz)
    • nicht alle Reliabilitätskoeffizienten sind gleich hoch (Test-Retest-Reliabilität meist niedriger als interne Konsistenz)
  • Grundlagenforschung: Reliabilität ausreichend zwischen .70 und .80
  • klinischer Bereich, Individualdiagnostik: muss höher sein (mindestens .90 oder .95)
  • Screening: kann niedriger sein
  • Personalentscheidungen: gefordertes Mass an Reliabilität kommt auf die Anzahl geeigneter Bewerber an
  • wichtiger Index für Interpretation der Reliabilität: Standardmessfehler (SMF)

 

Einfluss der Homogenität

  • homogene Tests eher reliabel als heterogene
  • je mehr homogene Items hinzugefügt werden, desto höher die interne Konsistenz
  • heterogene Tests nur bedingt reliabel, können dafür aber externe Kriterien gut voraussagen

>> Fazit — Stets beachten wie und wofür ein Test kreiert wurde, bevor man ihn für eigene Zwecke benutzt