Testtheorie und Fragebogenkonstruktion
Psychologie
Psychologie
Fichier Détails
Cartes-fiches | 310 |
---|---|
Utilisateurs | 42 |
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 08.05.2018 / 25.02.2024 |
Lien de web |
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
|
Intégrer |
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was ist eine part-whole-Korrektur? (Itemtrennschärfe)
- In der Regel wird zur Bestimmung der Trennschärfe eine „part-whole-Korrektur“ vorgenommen, d.h. das Item wird bei der Berechnung des Testwerts nicht berücksichtigt.
- Ohne Part-Whole-Korrektur wird die Trennschärfe überschätzt
Merke: Wenn man ganz viele Items hat (etwa mehr als 30), dann braucht man nicht zwingend die Part-Whole-Korrektur, weil der Anteil des Items sich an der Menge des Items relativiert. Beispiel Bei 10 Items ist der Anteil eines Items bei 1/10. Bei 30 Items ist der Anteil des Items nur noch 1/30 => der Anteil wird mit steigender Itemanzahl immer kleiner.
Wie wird die Itemtrennschäfe interpretiert?
- Der Wertebereich der Itemtrennschärfe liegt zwischen -1 und 1 => Bei Itemtrennschärfen werden z.B. Untergrenzen von .30 oder .40 als Auschlusskriterium genannt (Itemselektion)
- Bei einer hohen positiven Trennschärfe erfasst das Item etwas Ähnliches wie der Gesamttest (was auch immer dieser erfasst)
- Trennschärfe nahe Null weist darauf hin, dass ein Item mit dem restlichen Test nichts gemeinsam hat
- Negative Trennschärfe kann einen Hinweis darauf geben, dass ein Item umgekehrt wie beabsichtigt verstanden oder – wahrscheinlicher – bei der Auswertung nicht richtig gepolt wurde (Invertierung wurde nicht berücksichtigt)
Itemselektion (Itemanalyse)
- Bei der Konstruktion von Tests (auf Basis der KTT) werden oft mittels der Itemkennwerte „schlechte“ Items identifiziert (Item ist redundant = überflüssig) und aus der endgültigen Fassung des Tests ausgeschlossen
- Die Itemkennwerte Itemschwierigkeit, Itemvarianz und Itemtrennschärfe sind deskriptive Größen => es gibt daher keine klare Regeln, ab wann ein Item definitiv aus einem Test ausgeschlossen werden sollte.
- Itemschwierigkeiten kleiner 20 % oder größer 80 %werden i.d.R. als zu schwer oder zu leicht betrachtet
- Itemschtrennschärfen werden z.B Untergrenzen von .30 oder .40 als Ausschlusskriterium genannt.
- Aber: Bei Itemselektion Iteminhalt und Konstrukt nicht vergessen!
Itemselektion und Itemvarianz
Ziel ist immer möglichst hohe Varianz im Testwert (Rohwert)
Die Varianz im Testwert steigt:
- mit steigender Variabilität der Items (max. bei mittlerer Aufgabenschwierigkeit)
- und steigender Trennschärfe der Items
Damit sind „gute“ Items im Sinne der Testkonstruktion solche Items, die
- keine extrem hohe oder niedrige Itemschwierigkeit haben
- und eine hinreichende Trennschärfe aufweisen
Bei Itemselektion immer auch an den Iteminhalt und an das Konstrukt denken. Mit anderen Worten kann man auch geringere Qualitätsansprüche an einem Item stellen, wenn damit eine wichtige Facette des Merkamls erfasst wird.
Itemanalyse – Zusammenhänge zwischen den Itemkennwerten
Zwischen den verschiedenen Itemkennwerten bestehen einige systematische Zusammenhänge
- Ein Item mit extrem hoher oder niedriger Itemschwierigkeit kann nur eine eingeschränkte Varianz aufweisen
- Je niedriger die Varianz eines Items, desto unwahrscheinlicher ist es, dass ein Item noch eine hohe Itemtrennschärfe aufweist
- Spezialfall dichotome Items - siehe Grafik
Umgekehrt u-förmige (kurvilinear) Zusammenhang zwischen Itemvarianz und Itemschwierigkeit - Bei dichotomen Items wird die Varianz allein durch die Itemschwierigkeit bestimmt: p * (1 - p)
Wie man der Abbildung entnehmen kann, hat die Itemvarianz ihr Maximum bei mittlerer Itemschwierigkeit, nämlich bei 50. Das heißt, dass bei dichotomen Items die größte Differenzierung bei einer Itemschwierigkeit von Pi = pi· 100 = 50 erreicht wird, während sie zu den beiden extremen Ausprägungen hin (sehr niedrig, sehr hoch) stark abnimmt und bei Pi = 0 sowie bei Pi = 100 keine Differenzierung mehr vorliegt. - Beispielt:
p = 0,5 -> 0,5 * (1-0,5) = 0,25
p = 0,6 -> 0,6 * (1-0,6) = 0,24
p = 0,3 -> 0,3 * (1-0,3) = 0,21
Eine Testentwicklerin liefert Evidenz dafür, dass der Test das Merkmal, welches der Test misst, unabhängig von Testleiter und Testauswerter misst.
Objektivität
Eine alternative Bezeichnung für die internale Konstruktionsstrategie ist...
Aufgabe Itemschwierigkeit
Item "Manchmal fühle ich mich völlig wertlos (Neurotizismus) " 0= stimmt gar nicht bis 4=stimmt völlig
Stichprobe: N=400, Mittelewert =0,80
(0,8 / 4) * 100 = 20 %
=> spricht für eine eher schwieriges Item
Aufgabe Itemschwierigkeit - Leistungstest - Niveautest
Für das Lösen einer Aufgabe erhält man einen Punkt, für eine falsche Aufgabe erhält man Null Punkte.
Von 20 Personen lösen 15 Personen das Item richtig
Berechne die Itemschwierigkeit ohne und mit Ratekorrektur.
Berechnung ohne Ratekorrektur:
(15/20) * 100 = 75%
Berechnung mit Ratekorrektur: k=2
{[15-(5 / 2-1)] / 20 } *100 = 50%
Itemanalyse - Leistungstests - Speedtests
Aufgabe: Für das Lösen einer Aufgabe erhält man einen Punkt und für eine falsch Antwort erhält man Null Punkte.
R= richtige Antwort
F= falsche Antwort
A= Auslassung
U= unbearbeitet aufgrund von Zeitmangel
Von 80 Personen haben 60 die Aufgabe richtig gemacht, 10 haben diese flasch gemacht, 4 haben diese Aufgabe ausgelassen und 6 haben diese Aufgabe nicht beantwortet.
Berechne die Itemschwierigkeit.
nb = nR + nF + nA
nb = 60 + 10 + 4 = 74
pi = (nR / nb) * 100 = 81%
=> leichtes Item
Itemselektion und Faktorenanalyse: Faktor = latentes Merkmal
Itemselektion aufgrund der Faktorladung
Bei der Faktorenanalyse werden Faktoren erzeugt. Latente Merkmale werden in Faktoren zerlegt. Die Ladung ist eine Korrelation und drückt aus, wie stark das Item auf den Faktor läd. => Ladung = Korrelation zwischen Item und Faktor
Homogenität im Sinne der Faktorenanalyse
- Passung zur Annahme einer eindimensionalen Faktorenstruktur => Erklärung der Itemkovariation durch eine gemeinsame Fatorvariable.
Selektion nach Faktorladung
- hohe Faktorladung indiziert einen starken Zusammenhang zwischen dem Item und dem Faktor => d.h. die Itemantworten werden in hohem Maße durch Faktorenwerte beeinflusst.
- Items mit hoher Faktorladung werden in den Test aufgenommen.
Itemselektion und Reliabiltätsanalyse
- Einschätzung der Messgenauigkeit mittels der Reliabilitätsanalyse
- Itemselektion: Items können ausgeschlossen werden, wenn damit eine Steigerung der Reliabiltät (Homogenität) erreicht werden kann, dabei sollte die Itemzal beachtet werden
Welche Zusammenhänge zwischen Itemkennwerten sind korrekt?
Auswertungsschema zur Bestimmung des Schwierigkeitsindex bei Leistungstests
Leistung mit Zeitbegrenzung (Speedtests)
- Aufgaben werden gelöst
- Aufgaben werden nicht gelöst
- Aufgaben werden übersprungen/ausgelassen
- Aufgaben werden nicht mehr in Angriff genommen, weil die Bearbeitungszeit endete
Um die Itemschwierigkeit nicht zu überschätzen, soll die Zahl der gelösten Aufgaben ins Verhältnis gesetzt werden zur Zahl der Probanden, die dieses Item überhaupt bearbeitet haben - und nicht zur Gesamtzahl aller Probanden.
Grundannahmen der Klassische Testtheorie (KTT)
Konzeptionen des wahren Werts einer Person v in Test g
- Metaphysische Sichtweise: Natürlicher, festliegender Wert der Person v hinsichtlich der in Test g gemessene Eigenschaft
- Operationale Sichtweise: Mittelwert (unendlich) vieler Testreplikationen von Person v
- Theoretische Sichtweise: Erwartungswert der Testrealisation von Person v als stochastischer Prozess
=> Messfehlertheorie
Grundannahmen der Klassische Testtheorie (KTT)
Testergebnis als stochastischer Prozess
Einige Überlegungen
- Xvg bezeichne das beobachtete Testergebnis von Person v in Test g
- Jede Beobachtung ist durch Situationseinflüsse etc. beeinflusst
- Eine Beobachtung Xvg setzt sich somit aus stabilen und vorübergehenden Einflüssen zusammen.
- Daher stellt Xvg einen stochastischen Prozess dar, bei dem die möglichen Werte xvg mit einer bestimmten Wahrscheinlichkeit auftreten.
Axiom der Klassischen Testtheorie (KTT)
1. Existenzaxiom: \(τ \)vi= E(xvi)
2. Verknüpfungsaxiom: xvi = \(τ\)vi + \(ε\)vi
=> Aus dem Existenz- und dem Verknüpfungsaxiom folgt, dass E(\(ε\)vi) = 0
3. Unabhängigkeitsaxiom: Da der Erwartungswert des Zufallsfehler \(ε\)vi = 0, folgt Corr(\(τ\)vi,\(ε\)vi) = 0
Axiome der Klassischen Testtheorie (KTT) - Zusatzannahmen
Diese Zusatzannahmen sind notwendig, um die Reliabilität von Tests schätzen zu können.
a. Unabhängigkeit der Messfehler zwischen Items: Corr(\(ε\)vi,\(ε\)vj) = 0
b. Unabhängigkeit der Messfehler zwischen Personen: Corr(\(ε\)vi,\(ε\)wi) = 0
Axiome in der Klassischen Testtheorie (KTT) - Bestimmung des wahren Wertes \(τ\)v
- Um den Messfehler zu neutralisieren, werden wiederholt Messungen durchgeführt
- Die Items, auf denen die Wiederholungsmessungen basieren, müssen das gleiche Merkmal messen
- Der gemittelte Wert dient als Schätzer für den wahren Wert, denn es gilt, dass E(xv) = \(τ\)v
- Testwert einer Person (der sich aus der Summe der Erwartungsewrte der Itemwerte zusammensetzt) ist eine Schätzung des wahren Wertes einer Person
Reliabilität und Standardmessfehler in der KTT
- Bei der Bestimmung des wahren Werts handelt es sich nur um eine Schätzung
- Bestimmung des Standardmessfehlers -> Ausdruck der Unsicherheit über den „wahren Wert“ des geschätzten wahren Werts
- Standardmessfehler dient zur Berechnung von Konfidenzintervallen
- Zur Berechnung des Standardmessfehlers muss die Gesamtvarianz der Testwerte zerlegt werden in die wahre Varianz und Fehlervarianz
Reliabilität und Standardmessfehler - Varianzzerlegung
Varianzzerlegung
Var (x) = Var (τ + ε)
Var (x) = Var (τ) + Var (ε) + 2 ⋅ Cov (τ, ε)
Aber: Korrelation zwischen wahren Werten und Fehler ist null: Var (x) = Var (τ) + Var (ε)
Doch wie können die beiden unbekannten Varianzen geschätzt werden?
Reliabilität und Standardmessfehler in der KTT - Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben
Reliabilität und Standardmessfehler - Beispiel: Intelligenzmessung:
SD(x)=15
xv=130
Rel=.89
SD(\(ε\))=5
Konfidenzintervall: 130-(2*5)≤≤130+(2*5)
Grundannahmen der KTT
- Axiome sind nicht prüfbar (weil esAnnahmen sind)
- Ermöglicht die Genauigkeit der Messung einzuschätzen, z.B. wie hoch ist der Messfehler?
- Basiert auf den grundlegenden Annahmen über den wahren Wert (true score) und den Messfehler
- Es kann auf die warhe Ausprägung einer Person geschlossen werden
Existenzaxiom
Der wahre Wert (einer Person) entspricht dem Erwartungswert der Messungen eines Probanden bei dem betreffenden Item.
Verknüpfungsaxiom
Jede Messung setzt sich aus den wahren Wert einer Person und einem zufälligen Messfehler zusammen.
Unabhängigkeitsaxiom
Die Korrelation zwischen den Messfehlern und den warhen Werten ist Null. Das gilt bei beliebigen Personen und beliebigen Items.
Eine alternative Beschreibung für den Messfehler (E) einer Person innerhalb der KTT ist.
Wählen Sie eine Antwort.
Aus der Verknüfung von Existenzaxiom und Verknüpfungsaxiom folgt, dass der Zufallsfehler den Erwartungsert Null hat.
Welche praktische Bedeutung lässt sich daraus ableiten?
Wählen Sie eine Antwort.
Ergänzungen zu Split-Half-Reliabilität
In der Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS:
- Spearman − Brown − Koeffizient
- Guttmans Split − Half − Koeffizient
Datenbeispiel SPSS Reliabilität Modell Cronbachs Alpha, Teil 1 Itemanalyse: Itemschwierigkeit
Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS mit den Optionen:
- deskriptive Statistiken’ für die Items ("Item")
- "Skala, wenn Item gelöscht"
Tabelle:
Mittelwert der Lageparameter - kennen wir aus der Itemanalyse und kann als Indikatior für die Itemschwierigkeit gesehen werden.
Standardabweichung: Item 2 hat die geringste Streuung
Bei einer Nullvarianz wäre ein Item unbrauchbar.
Antwortskala 0 = gar nicht bis 4 stimme stark zu
Item 1, 3 und 8 haben die höchste Zustimmung (leichtes Item)
Item 2 hat die höchste Schwierigkeit
Datenbeispiel SPSS Reliabilität Modell Cronbachs Alpha, Teil 2 - Itemanalyse: Itemtrennschärfe
Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS mit den Optionen:
- deskriptive Statistiken’ für die Items ("Item")
- "Skala, wenn Item gelöscht
Vorteil Interne Konzistenz (Cornbachs Alpha): Man braucht keine verschiedenen Messzeitpunkte
1. Spalte: Skalen-Mittelwert wenn Item ausgelassen
2. Spalte: Skalen-Varianz wenn Item ausgelassen
3. Spalte: Korrigierte Item-Skalen-Korrelation = Itemtrennschärfe
Ergebns: Sauber Lösung homogener Aussagen
4. Spalte: Cronbachs Alpha, wenn Item ausgelassen
Welche Höhe würde Cronbachs Alpha annehmen, wenn man das betreffende Item herausnimmt?
Cronbachs Alpha beträgt 0,904 => Das auslassen eines dieser Items würde zu einer Reduzierung des Cronbachs Alpha führen.
Retest-Reliabilität revisited
Retest-Reliabilität: Zwei Messzeitpunkte
a) Alle Probanten haben zum ersten und zum zweiten Messzeitpunkt das gleiche Ergebnis => Rel=1
b) Alle Probanten verbessern sich um den selben Betrag vom ersten Messzeitpunkt zum zweiten Messzeitpunkt => Rel = 1
c) Je nach Person unterschiedliche Übungseffekte: starke Zunahme bis geringe Zunahme zum zweiten Messzeitpunkt; in der Tendenz geht es bei allen Probanten nach oben d.h. Testwertmittelwert ist zum ersten Messzeitpunkt geringer als zum zweiten Messzeitpunkt => Rel = 0.85
d) Einzelne Personen verschlechtern sich und andere verbessern sich zwischen den beiden Messzeitpunkten => Rel = 0,71
Retest-Reliabilität: SPSS Datenbeispiel: Testwerteverteilungen für 2 Zeitpunkte
Zeitpunkt 1 (erste Grafik): bimodal: Eine bimodale Verteilung ist in der Mathematik eine Wahrscheinlichkeitsverteilung oder Häufigkeitsverteilung, bei der die Dichte bzw. deren Schätzung zwei Modi aufweist.
k=4 => bei 8 Items ist der höchste Wert, der erreicht werden kann: 8 * 4 = 32
Ein Höhepunkt der Verteilung ist bei 18 und der andere bei 30
Zeitpunkt 2 (zweite Grafik): unimodal: Im Allgemeinen bedeutet Unimodalität, dass es nur einen einzigen, irgendwie definierten, höchsten Wert eines mathematischen Objekts gibt, d.h es besitzt nur ein Modal
Datenbeispiel SPSS: Retest-Reliabilität revisited - Streudiagramm
Testwerte für zwei Zeitpunkte als Streudiagramm in SPSS mit Modellgerade - 45 Grad Winkelhalbierende für konstante wahre Werte und konstante Fehlervarianzen.
x-Achse ist erster Testzeitpunkt tw1
y-Achse ist zweiter Testzeitpunkt tw2
Bei tw1 findet man bei 30 drei Ausreißer d.h. diese 3 Personen haben sich stark verändert zum tw2 -> Wert war dann nur noch zwischen 20 und 24 (siehe y-Achse).