Set of flashcards Testtheorie und Fragebogenkonstruktion (Page 4 of 8)

Flashcards	310
Students	42
Language	Deutsch
Category	Psychology
Level	University
Created / Updated	08.05.2018 / 25.02.2024
Weblink	https://card2brain.ch/cards/20180508_testtheorie_und_fragebogenkonstruktion?max=40&offset=120
Embed	<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist eine part-whole-Korrektur? (Itemtrennschärfe)

In der Regel wird zur Bestimmung der Trennschärfe eine „part-whole-Korrektur“ vorgenommen, d.h. das Item wird bei der Berechnung des Testwerts nicht berücksichtigt.
Ohne Part-Whole-Korrektur wird die Trennschärfe überschätzt

Merke: Wenn man ganz viele Items hat (etwa mehr als 30), dann braucht man nicht zwingend die Part-Whole-Korrektur, weil der Anteil des Items sich an der Menge des Items relativiert. Beispiel Bei 10 Items ist der Anteil eines Items bei 1/10. Bei 30 Items ist der Anteil des Items nur noch 1/30 => der Anteil wird mit steigender Itemanzahl immer kleiner.

Wie wird die Itemtrennschäfe interpretiert?

Der Wertebereich der Itemtrennschärfe liegt zwischen -1 und 1 => Bei Itemtrennschärfen werden z.B. Untergrenzen von .30 oder .40 als Auschlusskriterium genannt (Itemselektion)
Bei einer hohen positiven Trennschärfe erfasst das Item etwas Ähnliches wie der Gesamttest (was auch immer dieser erfasst)
Trennschärfe nahe Null weist darauf hin, dass ein Item mit dem restlichen Test nichts gemeinsam hat
Negative Trennschärfe kann einen Hinweis darauf geben, dass ein Item umgekehrt wie beabsichtigt verstanden oder – wahrscheinlicher – bei der Auswertung nicht richtig gepolt wurde (Invertierung wurde nicht berücksichtigt)

Itemselektion (Itemanalyse)

Bei der Konstruktion von Tests (auf Basis der KTT) werden oft mittels der Itemkennwerte „schlechte“ Items identifiziert (Item ist redundant = überflüssig) und aus der endgültigen Fassung des Tests ausgeschlossen
Die Itemkennwerte Itemschwierigkeit, Itemvarianz und Itemtrennschärfe sind deskriptive Größen => es gibt daher keine klare Regeln, ab wann ein Item definitiv aus einem Test ausgeschlossen werden sollte.
Itemschwierigkeiten kleiner 20 % oder größer 80 %werden i.d.R. als zu schwer oder zu leicht betrachtet
Itemschtrennschärfen werden z.B Untergrenzen von .30 oder .40 als Ausschlusskriterium genannt.
Aber: Bei Itemselektion Iteminhalt und Konstrukt nicht vergessen!

Itemselektion und Itemvarianz

Ziel ist immer möglichst hohe Varianz im Testwert (Rohwert)

Die Varianz im Testwert steigt:

mit steigender Variabilität der Items (max. bei mittlerer Aufgabenschwierigkeit)
und steigender Trennschärfe der Items

Damit sind „gute“ Items im Sinne der Testkonstruktion solche Items, die

keine extrem hohe oder niedrige Itemschwierigkeit haben
und eine hinreichende Trennschärfe aufweisen

Bei Itemselektion immer auch an den Iteminhalt und an das Konstrukt denken. Mit anderen Worten kann man auch geringere Qualitätsansprüche an einem Item stellen, wenn damit eine wichtige Facette des Merkamls erfasst wird.

Itemanalyse – Zusammenhänge zwischen den Itemkennwerten

Zwischen den verschiedenen Itemkennwerten bestehen einige systematische Zusammenhänge

Ein Item mit extrem hoher oder niedriger Itemschwierigkeit kann nur eine eingeschränkte Varianz aufweisen
Je niedriger die Varianz eines Items, desto unwahrscheinlicher ist es, dass ein Item noch eine hohe Itemtrennschärfe aufweist
Spezialfall dichotome Items - siehe Grafik
Umgekehrt u-förmige (kurvilinear) Zusammenhang zwischen Itemvarianz und Itemschwierigkeit
Bei dichotomen Items wird die Varianz allein durch die Itemschwierigkeit bestimmt: p * (1 - p)
Wie man der Abbildung entnehmen kann, hat die Itemvarianz ihr Maximum bei mittlerer Itemschwierigkeit, nämlich bei 50. Das heißt, dass bei dichotomen Items die größte Differenzierung bei einer Itemschwierigkeit von P_i = p_i· 100 = 50 erreicht wird, während sie zu den beiden extremen Ausprägungen hin (sehr niedrig, sehr hoch) stark abnimmt und bei P_i = 0 sowie bei P_i = 100 keine Differenzierung mehr vorliegt.
Beispielt:
p = 0,5 -> 0,5 * (1-0,5) = 0,25
p = 0,6 -> 0,6 * (1-0,6) = 0,24
p = 0,3 -> 0,3 * (1-0,3) = 0,21

Eine Testentwicklerin liefert Evidenz dafür, dass der Test das Merkmal, welches der Test misst, unabhängig von Testleiter und Testauswerter misst.

Objektivität

Eine alternative Bezeichnung für die internale Konstruktionsstrategie ist...

Faktorenanalytische Konstruktion

Kriteriumsorientierte Konstruktion

Rationale Konstruktion

Intuitive Konstruktion

Externale Konstruktion

Aufgabe Itemschwierigkeit

Item "Manchmal fühle ich mich völlig wertlos (Neurotizismus) " 0= stimmt gar nicht bis 4=stimmt völlig
Stichprobe: N=400, Mittelewert =0,80

(0,8 / 4) * 100 = 20 %

=> spricht für eine eher schwieriges Item

Aufgabe Itemschwierigkeit - Leistungstest - Niveautest

Für das Lösen einer Aufgabe erhält man einen Punkt, für eine falsche Aufgabe erhält man Null Punkte.
Von 20 Personen lösen 15 Personen das Item richtig
Berechne die Itemschwierigkeit ohne und mit Ratekorrektur.

Berechnung ohne Ratekorrektur:
(15/20) * 100 = 75%

Berechnung mit Ratekorrektur: k=2
{[15-(5 / 2-1)] / 20 } *100 = 50%

Itemanalyse - Leistungstests - Speedtests

Aufgabe: Für das Lösen einer Aufgabe erhält man einen Punkt und für eine falsch Antwort erhält man Null Punkte.
R= richtige Antwort
F= falsche Antwort
A= Auslassung
U= unbearbeitet aufgrund von Zeitmangel

Von 80 Personen haben 60 die Aufgabe richtig gemacht, 10 haben diese flasch gemacht, 4 haben diese Aufgabe ausgelassen und 6 haben diese Aufgabe nicht beantwortet.
Berechne die Itemschwierigkeit.

nb = nR + nF + nA
nb = 60 + 10 + 4 = 74

p_i = (nR / nb) * 100 = 81%

=> leichtes Item

Itemselektion und Faktorenanalyse: Faktor = latentes Merkmal

Itemselektion aufgrund der Faktorladung
Bei der Faktorenanalyse werden Faktoren erzeugt. Latente Merkmale werden in Faktoren zerlegt. Die Ladung ist eine Korrelation und drückt aus, wie stark das Item auf den Faktor läd. => Ladung = Korrelation zwischen Item und Faktor

Homogenität im Sinne der Faktorenanalyse

Passung zur Annahme einer eindimensionalen Faktorenstruktur => Erklärung der Itemkovariation durch eine gemeinsame Fatorvariable.

Selektion nach Faktorladung

hohe Faktorladung indiziert einen starken Zusammenhang zwischen dem Item und dem Faktor => d.h. die Itemantworten werden in hohem Maße durch Faktorenwerte beeinflusst.
Items mit hoher Faktorladung werden in den Test aufgenommen.

Itemselektion und Reliabiltätsanalyse

Einschätzung der Messgenauigkeit mittels der Reliabilitätsanalyse
Itemselektion: Items können ausgeschlossen werden, wenn damit eine Steigerung der Reliabiltät (Homogenität) erreicht werden kann, dabei sollte die Itemzal beachtet werden

Welche Zusammenhänge zwischen Itemkennwerten sind korrekt?

Je höher die Itemvarianz, desto wahrscheinlicher sind hohe Trennschärfen

Extrem niedriger Schwierigkeitsindex, tendenziell geringe Varianz

Extrem hoher Schwierigkeitsindex, tendenziell geringe Varianz

Umgegehrt u-förmiger Zusammenhang zwischen Varianz und Trennschärfe

Linearer Zusammenhang zwischen Schwierigkeitsindex und Trennschärfe

Auswertungsschema zur Bestimmung des Schwierigkeitsindex bei Leistungstests

Leistung mit Zeitbegrenzung (Speedtests)

Aufgaben werden gelöst
Aufgaben werden nicht gelöst
Aufgaben werden übersprungen/ausgelassen
Aufgaben werden nicht mehr in Angriff genommen, weil die Bearbeitungszeit endete

Um die Itemschwierigkeit nicht zu überschätzen, soll die Zahl der gelösten Aufgaben ins Verhältnis gesetzt werden zur Zahl der Probanden, die dieses Item überhaupt bearbeitet haben - und nicht zur Gesamtzahl aller Probanden.

Grundannahmen der Klassische Testtheorie (KTT)

Konzeptionen des wahren Werts einer Person v in Test g

Metaphysische Sichtweise: Natürlicher, festliegender Wert der Person v hinsichtlich der in Test g gemessene Eigenschaft
Operationale Sichtweise: Mittelwert (unendlich) vieler Testreplikationen von Person v
Theoretische Sichtweise: Erwartungswert der Testrealisation von Person v als stochastischer Prozess

=> Messfehlertheorie

Grundannahmen der Klassische Testtheorie (KTT)

Testergebnis als stochastischer Prozess

Einige Überlegungen

X_vg bezeichne das beobachtete Testergebnis von Person v in Test g
Jede Beobachtung ist durch Situationseinflüsse etc. beeinflusst
Eine Beobachtung X_vgsetzt sich somit aus stabilen und vorübergehenden Einflüssen zusammen.
Daher stellt X_vg einen stochastischen Prozess dar, bei dem die möglichen Werte x_vg mit einer bestimmten Wahrscheinlichkeit auftreten.

Axiom der Klassischen Testtheorie (KTT)

1. Existenzaxiom: \(τ \)_vi= E(x_vi)

2. Verknüpfungsaxiom: x_vi = \(τ\)_{vi +}\(ε\)_vi

_=>Aus dem Existenz- und dem Verknüpfungsaxiom folgt, dass E(\(ε\)_vi) = 0

3. Unabhängigkeitsaxiom: Da der Erwartungswert des Zufallsfehler \(ε\)_vi = 0, folgt Corr(\(τ\)_vi,\(ε\)_vi) = 0

Axiome der Klassischen Testtheorie (KTT) - Zusatzannahmen

Diese Zusatzannahmen sind notwendig, um die Reliabilität von Tests schätzen zu können.

a. Unabhängigkeit der Messfehler zwischen Items: Corr(\(ε\)_vi,\(ε\)_vj) = 0

b. Unabhängigkeit der Messfehler zwischen Personen: Corr(\(ε\)_vi,\(ε\)_wi) = 0

Axiome in der Klassischen Testtheorie (KTT) - Bestimmung des wahren Wertes \(τ\)_v

Um den Messfehler zu neutralisieren, werden wiederholt Messungen durchgeführt
Die Items, auf denen die Wiederholungsmessungen basieren, müssen das gleiche Merkmal messen
Der gemittelte Wert dient als Schätzer für den wahren Wert, denn es gilt, dass E(x_v) = \(τ\)_v
_{Testwert einer Person (der sich aus der Summe der Erwartungsewrte der Itemwerte zusammensetzt) ist eine Schätzung des wahren Wertes einer Person}

Reliabilität und Standardmessfehler in der KTT

Bei der Bestimmung des wahren Werts handelt es sich nur um eine Schätzung
Bestimmung des Standardmessfehlers -> Ausdruck der Unsicherheit über den „wahren Wert“ des geschätzten wahren Werts
Standardmessfehler dient zur Berechnung von Konfidenzintervallen
Zur Berechnung des Standardmessfehlers muss die Gesamtvarianz der Testwerte zerlegt werden in die wahre Varianz und Fehlervarianz

Reliabilität und Standardmessfehler - Varianzzerlegung

Varianzzerlegung
Var (x) = Var (τ + ε)
Var (x) = Var (τ) + Var (ε) + 2 ⋅ Cov (τ, ε)

Aber: Korrelation zwischen wahren Werten und Fehler ist null: Var (x) = Var (τ) + Var (ε)

Doch wie können die beiden unbekannten Varianzen geschätzt werden?

Reliabilität und Standardmessfehler in der KTT - Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben

Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben.

Definition: Die Reliabilität Rel bezeichnet die Messgenauigkeit eines Tests und ist als Anteil der Varianz der wahren Werte \(τ\) an der Varianz der beobachteten Testwerte x definiert:

Reliabilität und Standardmessfehler - Mittels der Reliabilität kann nun auch der Standardmessfehler bestimmt werden.

Der Standardmessfehler ist die Wurzel aus dem Ausdruck (siehe Grafik)

Reliabilität und Standardmessfehler - Konfidenzintervall

Das Konfidenzintervall drück aus, wie genaudie messung ist, je breiter das Konfidenzintervall, desto ungenauer die Schätzung

Konfidenzintervall für \(τ\)_v

Reliabilität und Standardmessfehler - Beispiel: Intelligenzmessung:

SD(x)=15
x_v=130
Rel=.89
SD(\(ε\))=5

Konfidenzintervall: 130-(2*5)≤≤130+(2*5)

Grundannahmen der KTT

Axiome sind nicht prüfbar (weil esAnnahmen sind)
Ermöglicht die Genauigkeit der Messung einzuschätzen, z.B. wie hoch ist der Messfehler?
Basiert auf den grundlegenden Annahmen über den wahren Wert (true score) und den Messfehler
Es kann auf die warhe Ausprägung einer Person geschlossen werden

Was ist die Covarianz zwischen zwie parallelen Tests?

Die Covarianz von zwei parallelen Tests ist gleich die wahre Varianz s_\(τ\)²

Reliabilität und Standardmessfehler - Konfidenzintervall Aufgabe

Max hat einem Intelligenztest einen IQ von 135 erzielt. Man gilt als hochbegabt, wenn man einen IQ von mind. 130 hat.
Ist Max hochbegabt?

SD(x) = 15
Rel: 0.90

Bestimme erst den Standardmessfehler
Bestimme das Konfidenzintervall von Max

Existenzaxiom

Der wahre Wert (einer Person) entspricht dem Erwartungswert der Messungen eines Probanden bei dem betreffenden Item.

Verknüpfungsaxiom

Jede Messung setzt sich aus den wahren Wert einer Person und einem zufälligen Messfehler zusammen.

Unabhängigkeitsaxiom

Die Korrelation zwischen den Messfehlern und den warhen Werten ist Null. Das gilt bei beliebigen Personen und beliebigen Items.

Eine alternative Beschreibung für den Messfehler (E) einer Person innerhalb der KTT ist.
Wählen Sie eine Antwort.

Die Differenz zwischen dem wahren Wert und dem Testwert einer Person

Die systematische Abweichung zwischen dem Testwert und dem wahren Wert bei einer Person

Das Produkt aus Standardabweichung und Fehlertoleranz bei einer Person

Die Standardabweichung des Testwertes bei einer Person

Aus der Verknüfung von Existenzaxiom und Verknüpfungsaxiom folgt, dass der Zufallsfehler den Erwartungsert Null hat.
Welche praktische Bedeutung lässt sich daraus ableiten?
Wählen Sie eine Antwort.

Für die Bestimmung von wahren Werten in Persönlichkeitstests sind Testwiederholungen ein probates Mittel um den wahren Wert zu ermitteln

Theoretisch sollte eine Mittelwertbildung von mehreren Testläufen ermöglichen, den wahren Wert zu bestimmen. Allerdings sind die dann entstandenen Fehler zufällig, da bei der Person Erinnerungseffekt nicht ausgeschlossen werden können.

Über mehrere Testdurchläufe hinweg sollte der wahre Wert mit gleicher Wahrscheinlichkeit über- oder unterschätzt werden. In der Praxis kommt es jedoch zu systematischen Fehlern bei Testwiederholungen, so dass diese Annahme auf diesem Weg nicht erreicht werden kann.

Man könne eine Person mehrmals einen Test wiederholen lassen. Daraus ließe sich der wahre Wert als Mittelwert des Testwertes bestimmen.

Ergänzungen zu Split-Half-Reliabilität

In der Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS:

Spearman − Brown − Koeffizient
Guttmans Split − Half − Koeffizient

Spearman − Brown − Koeffizient:
dabei geht es um die Korrelation beider Testhälfte
Guttmans Split − Half − Koeffizient:
hier geht es um Varianzen: im Zähler: Varianz des Gesamttestes, subtrahiert wird die Varianz einzelner Testteile geteilt durch die Varianz des gesamten Tests

Datenbeispiel SPSS Reliabilität Modell Cronbachs Alpha, Teil 1 Itemanalyse: Itemschwierigkeit

Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS mit den Optionen:

deskriptive Statistiken’ für die Items ("Item")
"Skala, wenn Item gelöscht"

Tabelle:
Mittelwert der Lageparameter - kennen wir aus der Itemanalyse und kann als Indikatior für die Itemschwierigkeit gesehen werden.
Standardabweichung: Item 2 hat die geringste Streuung
Bei einer Nullvarianz wäre ein Item unbrauchbar.

Antwortskala 0 = gar nicht bis 4 stimme stark zu
Item 1, 3 und 8 haben die höchste Zustimmung (leichtes Item)
Item 2 hat die höchste Schwierigkeit

Datenbeispiel SPSS Reliabilität Modell Cronbachs Alpha, Teil 2 - Itemanalyse: Itemtrennschärfe

Ausgabe der Prozedur ’Reliabilitätsanalyse’ in SPSS mit den Optionen:

deskriptive Statistiken’ für die Items ("Item")
"Skala, wenn Item gelöscht

Vorteil Interne Konzistenz (Cornbachs Alpha): Man braucht keine verschiedenen Messzeitpunkte

1. Spalte: Skalen-Mittelwert wenn Item ausgelassen
2. Spalte: Skalen-Varianz wenn Item ausgelassen
3. Spalte: Korrigierte Item-Skalen-Korrelation = Itemtrennschärfe
Ergebns: Sauber Lösung homogener Aussagen
4. Spalte: Cronbachs Alpha, wenn Item ausgelassen
Welche Höhe würde Cronbachs Alpha annehmen, wenn man das betreffende Item herausnimmt?
Cronbachs Alpha beträgt 0,904 => Das auslassen eines dieser Items würde zu einer Reduzierung des Cronbachs Alpha führen.

Retest-Reliabilität revisited

Retest-Reliabilität: Zwei Messzeitpunkte

a) Alle Probanten haben zum ersten und zum zweiten Messzeitpunkt das gleiche Ergebnis => Rel=1
b) Alle Probanten verbessern sich um den selben Betrag vom ersten Messzeitpunkt zum zweiten Messzeitpunkt => Rel = 1
c) Je nach Person unterschiedliche Übungseffekte: starke Zunahme bis geringe Zunahme zum zweiten Messzeitpunkt; in der Tendenz geht es bei allen Probanten nach oben d.h. Testwertmittelwert ist zum ersten Messzeitpunkt geringer als zum zweiten Messzeitpunkt => Rel = 0.85
d) Einzelne Personen verschlechtern sich und andere verbessern sich zwischen den beiden Messzeitpunkten => Rel = 0,71

Retest-Reliabilität: SPSS Datenbeispiel: Testwerteverteilungen für 2 Zeitpunkte

Zeitpunkt 1 (erste Grafik): bimodal: Eine bimodale Verteilung ist in der Mathematik eine Wahrscheinlichkeitsverteilung oder Häufigkeitsverteilung, bei der die Dichte bzw. deren Schätzung zwei Modi aufweist.
k=4 => bei 8 Items ist der höchste Wert, der erreicht werden kann: 8 * 4 = 32
Ein Höhepunkt der Verteilung ist bei 18 und der andere bei 30

Zeitpunkt 2 (zweite Grafik): unimodal: Im Allgemeinen bedeutet Unimodalität, dass es nur einen einzigen, irgendwie definierten, höchsten Wert eines mathematischen Objekts gibt, d.h es besitzt nur ein Modal

Datenbeispiel SPSS: Retest-Reliabilität revisited - Streudiagramm

Testwerte für zwei Zeitpunkte als Streudiagramm in SPSS mit Modellgerade - 45 Grad Winkelhalbierende für konstante wahre Werte und konstante Fehlervarianzen.
x-Achse ist erster Testzeitpunkt tw1
y-Achse ist zweiter Testzeitpunkt tw2

Bei tw1 findet man bei 30 drei Ausreißer d.h. diese 3 Personen haben sich stark verändert zum tw2 -> Wert war dann nur noch zwischen 20 und 24 (siehe y-Achse).

Ausgangspunkt für die Bestimmung der Reliabilität

Ausgangspunkt für die Bestimmung der Reliabilität ist die Zerlegung der Varianz der Testwerte

wenn Var(x) = Var(\(τ\)) dann ist Rel = 1
wenn Var(x) = Var(\(ε\)) dann ist Rel = 0

Theoretischer Wertebereich ist zwischen 0 und 1

Testtheorie und Fragebogenkonstruktion

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google