Psychologie


Fichier Détails

Cartes-fiches 310
Utilisateurs 42
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 08.05.2018 / 25.02.2024
Lien de web
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
Intégrer
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist eine part-whole-Korrektur? (Itemtrennschärfe)

  • In der Regel wird zur Bestimmung der Trennschärfe eine „part-whole-Korrektur“ vorgenommen, d.h. das Item wird bei der Berechnung des Testwerts nicht berücksichtigt.
  • Ohne Part-Whole-Korrektur wird die Trennschärfe überschätzt

Merke: Wenn man ganz viele Items hat (etwa mehr als 30), dann braucht man nicht zwingend die Part-Whole-Korrektur, weil der Anteil des Items sich an der Menge des Items relativiert. Beispiel Bei 10 Items ist der Anteil eines Items bei 1/10. Bei 30 Items ist der Anteil des Items nur noch 1/30 => der Anteil wird mit steigender Itemanzahl immer kleiner.

Wie wird die Itemtrennschäfe interpretiert?

  • Der Wertebereich der Itemtrennschärfe liegt zwischen -1 und 1 => Bei Itemtrennschärfen werden z.B. Untergrenzen von .30 oder .40 als Auschlusskriterium genannt (Itemselektion)
     
  • Bei einer hohen positiven Trennschärfe erfasst das Item etwas Ähnliches wie der Gesamttest (was auch immer dieser erfasst)
  • Trennschärfe nahe Null weist darauf hin, dass ein Item mit dem restlichen Test nichts gemeinsam hat
  • Negative Trennschärfe kann einen Hinweis darauf geben, dass ein Item umgekehrt wie beabsichtigt verstanden oder – wahrscheinlicher – bei der Auswertung nicht richtig gepolt wurde (Invertierung wurde nicht berücksichtigt)

Itemselektion (Itemanalyse)

  • Bei der Konstruktion von Tests (auf Basis der KTT) werden oft mittels der Itemkennwerte „schlechte“ Items identifiziert (Item ist redundant = überflüssig) und aus der endgültigen Fassung des Tests ausgeschlossen
  • Die Itemkennwerte Itemschwierigkeit, Itemvarianz und Itemtrennschärfe sind deskriptive Größen => es gibt daher keine klare Regeln, ab wann ein Item definitiv aus einem Test ausgeschlossen werden sollte.
  • Itemschwierigkeiten kleiner 20 % oder größer 80 %werden i.d.R. als zu schwer oder zu leicht betrachtet
  • Itemschtrennschärfen werden z.B Untergrenzen von .30 oder .40 als Ausschlusskriterium genannt.
  • Aber: Bei Itemselektion Iteminhalt und Konstrukt nicht vergessen!

Itemselektion und Itemvarianz

Ziel ist immer möglichst hohe Varianz im Testwert (Rohwert)

Die Varianz im Testwert steigt:

  • mit steigender Variabilität der Items (max. bei mittlerer Aufgabenschwierigkeit)
  • und steigender Trennschärfe der Items

Damit sind „gute“ Items im Sinne der Testkonstruktion solche Items, die

  • keine extrem hohe oder niedrige Itemschwierigkeit haben
  • und eine hinreichende Trennschärfe aufweisen

Bei Itemselektion immer auch an den Iteminhalt und an das Konstrukt denken. Mit anderen Worten kann man auch geringere Qualitätsansprüche an einem Item stellen, wenn damit eine wichtige Facette des Merkamls erfasst wird.

Itemanalyse – Zusammenhänge zwischen den Itemkennwerten

Zwischen den verschiedenen Itemkennwerten bestehen einige systematische Zusammenhänge

  • Ein Item mit extrem hoher oder niedriger Itemschwierigkeit kann nur eine eingeschränkte Varianz aufweisen
  • Je niedriger die Varianz eines Items, desto unwahrscheinlicher ist es, dass ein Item noch eine hohe Itemtrennschärfe aufweist
     
  • Spezialfall dichotome Items - siehe Grafik
    Umgekehrt u-förmige (kurvilinear) Zusammenhang zwischen Itemvarianz und Itemschwierigkeit 
  • Bei dichotomen Items wird die Varianz allein durch die Itemschwierigkeit bestimmt: p * (1 - p)
    Wie man der Abbildung entnehmen kann, hat die Itemvarianz ihr Maximum bei mittlerer Itemschwierigkeit, nämlich bei 50. Das heißt, dass bei dichotomen Items die größte Differenzierung bei einer Itemschwierigkeit von Pi = pi· 100 = 50 erreicht wird, während sie zu den beiden extremen Ausprägungen hin (sehr niedrig, sehr hoch) stark abnimmt und bei Pi = 0 sowie bei Pi = 100 keine Differenzierung mehr vorliegt.
  • Beispielt:
    p = 0,5 -> 0,5 * (1-0,5) = 0,25
    p = 0,6 -> 0,6 * (1-0,6) = 0,24
    p = 0,3 -> 0,3 * (1-0,3) = 0,21

Eine Testentwicklerin liefert Evidenz dafür, dass der Test das Merkmal, welches der Test misst, unabhängig von Testleiter und Testauswerter misst.

Objektivität

Eine alternative Bezeichnung für die internale Konstruktionsstrategie ist...

Aufgabe Itemschwierigkeit

Item "Manchmal fühle ich mich völlig wertlos (Neurotizismus) " 0= stimmt gar nicht bis 4=stimmt völlig
Stichprobe: N=400, Mittelewert =0,80

(0,8 / 4) * 100 = 20 %

=> spricht für eine eher schwieriges Item

Aufgabe Itemschwierigkeit - Leistungstest - Niveautest

Für das Lösen einer Aufgabe erhält man einen Punkt, für eine falsche Aufgabe erhält man Null Punkte.
Von 20 Personen lösen 15 Personen das Item richtig
Berechne die Itemschwierigkeit ohne und mit Ratekorrektur.

Berechnung ohne Ratekorrektur:
(15/20) * 100 = 75%

Berechnung mit Ratekorrektur: k=2
{[15-(5 / 2-1)] / 20 } *100 = 50%

Itemanalyse - Leistungstests - Speedtests

Aufgabe: Für das Lösen einer Aufgabe erhält man einen Punkt und für eine falsch Antwort erhält man Null Punkte.
R= richtige Antwort
F= falsche Antwort
A= Auslassung
U= unbearbeitet aufgrund von Zeitmangel

Von 80 Personen haben 60 die Aufgabe richtig gemacht, 10 haben diese flasch gemacht, 4 haben diese Aufgabe ausgelassen und 6 haben diese Aufgabe nicht beantwortet.
Berechne die Itemschwierigkeit.

nb = nR + nF + nA
nb = 60 + 10 + 4 = 74

pi = (nR / nb) * 100 = 81%

=> leichtes Item

 

Itemselektion und Faktorenanalyse: Faktor = latentes Merkmal

Itemselektion aufgrund der Faktorladung
Bei der Faktorenanalyse werden Faktoren erzeugt. Latente Merkmale werden in Faktoren zerlegt. Die Ladung ist eine Korrelation und drückt aus, wie stark das Item auf den Faktor läd. => Ladung = Korrelation zwischen Item und Faktor

Homogenität im Sinne der Faktorenanalyse

  • Passung zur Annahme einer eindimensionalen Faktorenstruktur => Erklärung der Itemkovariation durch eine gemeinsame Fatorvariable.

Selektion nach Faktorladung

  • hohe Faktorladung indiziert einen starken Zusammenhang zwischen dem Item und dem Faktor => d.h. die Itemantworten werden in hohem Maße durch Faktorenwerte beeinflusst.
  • Items mit hoher Faktorladung werden in den Test aufgenommen.

Itemselektion und Reliabiltätsanalyse

  • Einschätzung der Messgenauigkeit mittels der Reliabilitätsanalyse
  • Itemselektion: Items können ausgeschlossen werden, wenn damit eine Steigerung der Reliabiltät (Homogenität) erreicht werden kann, dabei sollte die Itemzal beachtet werden

Welche Zusammenhänge zwischen Itemkennwerten sind korrekt?

Auswertungsschema zur Bestimmung des Schwierigkeitsindex bei Leistungstests

Leistung mit Zeitbegrenzung (Speedtests)

  • Aufgaben werden gelöst
  • Aufgaben werden nicht gelöst
  • Aufgaben werden übersprungen/ausgelassen
  • Aufgaben werden nicht mehr in Angriff genommen, weil die Bearbeitungszeit endete

Um die Itemschwierigkeit nicht zu überschätzen, soll die Zahl der gelösten Aufgaben ins Verhältnis gesetzt werden zur Zahl der Probanden, die dieses Item überhaupt bearbeitet haben - und nicht zur Gesamtzahl aller Probanden.

Grundannahmen der Klassische Testtheorie (KTT)

Konzeptionen des wahren Werts einer Person v in Test g 

  • Metaphysische Sichtweise: Natürlicher, festliegender Wert der Person v hinsichtlich der in Test g gemessene Eigenschaft
  • Operationale Sichtweise: Mittelwert (unendlich) vieler Testreplikationen von Person v
  • Theoretische Sichtweise: Erwartungswert der Testrealisation von Person v als stochastischer Prozess

=> Messfehlertheorie

Grundannahmen der Klassische Testtheorie (KTT)

Testergebnis als stochastischer Prozess

Einige Überlegungen

  • Xvg bezeichne das beobachtete Testergebnis von Person v in Test g
  • Jede Beobachtung ist durch Situationseinflüsse etc. beeinflusst
  • Eine Beobachtung Xvg setzt sich somit aus stabilen und vorübergehenden Einflüssen zusammen.
  • Daher stellt Xvg einen stochastischen Prozess dar, bei dem die möglichen Werte xvg mit einer bestimmten Wahrscheinlichkeit auftreten.

Axiom der Klassischen Testtheorie (KTT)

1. Existenzaxiom: \(τ \)vi= E(xvi)

2. Verknüpfungsaxiom: xvi = \(τ\)vi + \(ε\)vi

=> Aus dem Existenz- und dem Verknüpfungsaxiom folgt, dass E(\(ε\)vi) = 0

3. Unabhängigkeitsaxiom: Da der Erwartungswert des Zufallsfehler \(ε\)vi = 0, folgt Corr(\(τ\)vi,\(ε\)vi) = 0

 

Axiome der Klassischen Testtheorie (KTT) - Zusatzannahmen

Diese Zusatzannahmen sind notwendig, um die Reliabilität von Tests schätzen zu können.

a. Unabhängigkeit der Messfehler zwischen Items: Corr(\(ε\)vi,\(ε\)vj) = 0

b. Unabhängigkeit der Messfehler zwischen Personen: Corr(\(ε\)vi,\(ε\)wi) = 0

Axiome in der Klassischen Testtheorie (KTT) - Bestimmung des wahren Wertes \(τ\)v

  • Um den Messfehler zu neutralisieren, werden wiederholt Messungen durchgeführt
  • Die Items, auf denen die Wiederholungsmessungen basieren, müssen das gleiche Merkmal messen
  • Der gemittelte Wert dient als Schätzer für den wahren Wert, denn es gilt, dass E(xv) = \(τ\)v
  • Testwert einer Person (der sich aus der Summe der Erwartungsewrte der Itemwerte zusammensetzt) ist eine Schätzung des wahren Wertes einer Person

Reliabilität und Standardmessfehler in der KTT

  • Bei der Bestimmung des wahren Werts handelt es sich nur um eine Schätzung
  • Bestimmung des Standardmessfehlers -> Ausdruck der Unsicherheit über den „wahren Wert“ des geschätzten wahren Werts
  • Standardmessfehler dient zur Berechnung von Konfidenzintervallen
  • Zur Berechnung des Standardmessfehlers muss die Gesamtvarianz der Testwerte zerlegt werden in die wahre Varianz und Fehlervarianz

Reliabilität und Standardmessfehler - Varianzzerlegung

Varianzzerlegung
Var (x) = Var (τ + ε)
Var (x) = Var (τ) + Var (ε) + 2 ⋅ Cov (τ, ε)

Aber: Korrelation zwischen wahren Werten und Fehler ist null: Var (x) = Var (τ) + Var (ε)

Doch wie können die beiden unbekannten Varianzen geschätzt werden?

 

Reliabilität und Standardmessfehler in der KTT -  Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben

Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben.

Definition: Die Reliabilität Rel bezeichnet die Messgenauigkeit eines Tests und ist als Anteil der Varianz der wahren Werte \(τ\) an der Varianz der beobachteten Testwerte x definiert:
 

Reliabilität und Standardmessfehler - Mittels der Reliabilität kann nun auch der Standardmessfehler bestimmt werden.

Der Standardmessfehler ist die Wurzel aus dem Ausdruck (siehe Grafik)

Reliabilität und Standardmessfehler - Konfidenzintervall

Das Konfidenzintervall drück aus, wie genaudie messung ist, je breiter das Konfidenzintervall, desto ungenauer die Schätzung
 

Konfidenzintervall für \(τ\)v

Reliabilität und Standardmessfehler - Beispiel: Intelligenzmessung:

SD(x)=15
xv=130
Rel=.89
SD(\(ε\))=5

 Konfidenzintervall: 130-(2*5)≤≤130+(2*5)

Grundannahmen der KTT

  • Axiome sind nicht prüfbar (weil esAnnahmen sind)
  • Ermöglicht die Genauigkeit der Messung einzuschätzen, z.B. wie hoch ist der Messfehler?
  • Basiert auf den grundlegenden Annahmen über den wahren Wert (true score) und den Messfehler
  • Es kann auf die warhe Ausprägung einer Person geschlossen werden

Was ist die Covarianz zwischen zwie parallelen Tests?

Die Covarianz von zwei parallelen Tests ist gleich die wahre Varianz s\(τ\)2

Reliabilität und Standardmessfehler - Konfidenzintervall Aufgabe

Max hat einem Intelligenztest einen IQ von 135 erzielt. Man gilt als hochbegabt, wenn man einen IQ von mind. 130 hat.
Ist Max hochbegabt?

SD(x) = 15
Rel: 0.90

Bestimme erst den Standardmessfehler
Bestimme das Konfidenzintervall von Max

Existenzaxiom

Der wahre Wert (einer Person) entspricht dem Erwartungswert der Messungen eines Probanden bei dem betreffenden Item.

Verknüpfungsaxiom

Jede Messung setzt sich aus den wahren Wert einer Person und einem zufälligen Messfehler zusammen.

Unabhängigkeitsaxiom

Die Korrelation zwischen den Messfehlern und den warhen Werten ist Null. Das gilt bei beliebigen Personen und beliebigen Items.

Eine alternative Beschreibung für den Messfehler (E) einer Person innerhalb der KTT ist.
Wählen Sie eine Antwort.

Aus der Verknüfung von Existenzaxiom und Verknüpfungsaxiom folgt, dass der Zufallsfehler den Erwartungsert Null hat.
Welche praktische Bedeutung lässt sich daraus ableiten?
Wählen Sie eine Antwort.

Ergänzungen zu Split-Half-Reliabilität

In der Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS:

  • Spearman − Brown − Koeffizient
  • Guttmans Split − Half − Koeffizient

  • Spearman − Brown − Koeffizient:
    dabei geht es um die Korrelation beider Testhälfte
     
  • Guttmans Split − Half − Koeffizient:
    hier geht es um Varianzen: im Zähler:  Varianz des Gesamttestes, subtrahiert wird die Varianz einzelner Testteile geteilt durch die Varianz des gesamten Tests

 

Datenbeispiel SPSS Reliabilität Modell Cronbachs Alpha, Teil 1 Itemanalyse: Itemschwierigkeit

Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS mit den Optionen:

  • deskriptive Statistiken’ für die Items ("Item")
  • "Skala, wenn Item gelöscht"

Tabelle:
Mittelwert der Lageparameter - kennen wir aus der Itemanalyse und kann als Indikatior für die Itemschwierigkeit gesehen werden.
Standardabweichung: Item 2 hat die geringste Streuung
Bei einer Nullvarianz wäre ein Item unbrauchbar.

Antwortskala 0 = gar nicht bis 4 stimme stark zu
Item 1, 3 und 8 haben die höchste Zustimmung (leichtes Item)
Item 2 hat die höchste Schwierigkeit

Datenbeispiel SPSS Reliabilität Modell Cronbachs Alpha, Teil 2 - Itemanalyse: Itemtrennschärfe

Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS mit den Optionen:

  • deskriptive Statistiken’ für die Items ("Item")
  • "Skala, wenn Item gelöscht

Vorteil Interne Konzistenz (Cornbachs Alpha): Man braucht keine verschiedenen Messzeitpunkte

1. Spalte: Skalen-Mittelwert wenn Item ausgelassen
2. Spalte: Skalen-Varianz wenn Item ausgelassen
3. Spalte: Korrigierte Item-Skalen-Korrelation = Itemtrennschärfe
Ergebns: Sauber Lösung homogener Aussagen
4. Spalte: Cronbachs Alpha, wenn Item ausgelassen
Welche Höhe würde Cronbachs Alpha annehmen, wenn man das betreffende Item herausnimmt?
Cronbachs Alpha beträgt 0,904 => Das auslassen eines dieser Items würde zu einer Reduzierung des Cronbachs Alpha führen.

Retest-Reliabilität revisited

Retest-Reliabilität: Zwei Messzeitpunkte

a) Alle Probanten haben zum ersten und zum zweiten Messzeitpunkt das gleiche Ergebnis => Rel=1
b) Alle Probanten verbessern sich um den selben Betrag vom ersten Messzeitpunkt zum zweiten Messzeitpunkt  => Rel = 1
c) Je nach Person unterschiedliche Übungseffekte: starke Zunahme bis geringe Zunahme zum zweiten Messzeitpunkt; in der Tendenz geht es bei allen Probanten nach oben d.h. Testwertmittelwert ist zum ersten Messzeitpunkt geringer als zum zweiten Messzeitpunkt => Rel = 0.85
d) Einzelne Personen verschlechtern sich und andere verbessern sich zwischen den beiden Messzeitpunkten => Rel = 0,71

 

Retest-Reliabilität: SPSS Datenbeispiel: Testwerteverteilungen für 2 Zeitpunkte

Zeitpunkt 1 (erste Grafik): bimodal: Eine bimodale Verteilung ist in der Mathematik eine Wahrscheinlichkeitsverteilung oder Häufigkeitsverteilung, bei der die Dichte bzw. deren Schätzung zwei Modi aufweist.
k=4 => bei 8 Items ist der höchste Wert, der erreicht werden kann: 8 * 4 = 32
Ein Höhepunkt der Verteilung ist bei 18 und der andere bei 30


Zeitpunkt 2 (zweite Grafik): unimodal: Im Allgemeinen bedeutet Unimodalität, dass es nur einen einzigen, irgendwie definierten, höchsten Wert eines mathematischen Objekts gibt, d.h es besitzt nur ein Modal

Datenbeispiel SPSS: Retest-Reliabilität revisited - Streudiagramm

Testwerte für zwei Zeitpunkte als Streudiagramm in SPSS mit Modellgerade  - 45 Grad Winkelhalbierende für konstante wahre Werte und konstante Fehlervarianzen.
x-Achse ist erster Testzeitpunkt tw1
y-Achse ist zweiter Testzeitpunkt tw2

Bei tw1 findet man bei 30 drei Ausreißer d.h. diese 3 Personen haben sich stark verändert zum tw2 -> Wert war dann nur noch zwischen 20 und 24 (siehe y-Achse).

Ausgangspunkt für die Bestimmung der Reliabilität

Ausgangspunkt für die Bestimmung der Reliabilität ist die Zerlegung der Varianz der Testwerte

wenn Var(x) = Var(\(τ\)) dann ist Rel = 1
wenn Var(x) = Var(\(ε\)) dann ist Rel = 0

Theoretischer Wertebereich ist zwischen 0 und 1