03421- Kapitel 3

Grundlangen der Testkonstruktion Kapitel 3 Itemanalyse: Kürzung und Revision des Entwurfs

Grundlangen der Testkonstruktion Kapitel 3 Itemanalyse: Kürzung und Revision des Entwurfs


Kartei Details

Karten 79
Lernende 14
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 17.09.2015 / 06.09.2023
Weblink
https://card2brain.ch/box/03421_kapitel_3
Einbinden
<iframe src="https://card2brain.ch/box/03421_kapitel_3/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie werden die Items auf Verständlichkeit und Eindeutigkeit geprüft, wenn die erste Rohfassung des Tests vorliegt?

- Pretest

Warum kann es Probleme mit der Aktzeptanz von Items geben?

Items werden als

- invasiv

- belastend

- oder aus anderen Gründen inakzeptabel empfunden

Wie können mögliche Probleme mit der Akzeptanz von Items erfasst werden?

- qualitative Erhebung mit der Möglichkeit, Kommentare abzugeben

- hier genügt eine kleine Stichprobe, deren Mitglieder aber zur Zielgruppe des Tests gehören sollen

Was kann erfolgen, nachdem missverständliche Items identifiziert, eleminiert oder ggf. umgeschrieben wurden?

- quantitative empirische Prüfung der Vorform des Tests in einem größeren Rahmen

Wofür werden empirische Kennwerte für die einzelnen Items genutzt?

- Unterschiede in den Messeigenschaften einzelner Items zu identifizieren

- zur Kürzung der Vorform des Tests

- Eleminierung weniger geeigneter Aufgaben

Welche Kennwerte für Items werden in der KTT an erster Stelle verwendet?

Itemschwierigkeit

Itemtrennschärfe

Was ist der BFI?

- Big Five Inventory

- kurzes Inventar zur Messung des Fünf- Faktoren- Modells der Persönlichkeit

- 44 Items

- jeweils zwischen 7 und 10 Items für die Persönlichkeitsdimensionen

- Neurotizismus, Extraversion, Offenheit für Erfahrungen, Verträglichkeit, Gewissenhaftigkeit

- fünfstufige, bipolare Ratingskala zur Beantwortung

- von "trifft überhaupt nicht auf mich zu" bis "trifft sehr gut auf mich zu"

- es handelt sich im Grunde um einen rational konstruierten Test zur Messung eines faktorenanalytisch begündeten Persönlichkeitsmodells

- Übereinstimmung mit anderen Inventaren zur Messung der Big Five ist hoch

Die Items des BFI sind unterschiedlich gepolt. Was bedeutet das?

- hohe Werte stehen manchmal für hohe, manchmal für niedrige Ausprägungen des jeweiligen Merkmals

- bevor Berechnungen mit den Daten durchgeführt werden, sollten die Items rekodiert werden, so dass sämtliche Items gleich gepolt sind

Welcher Befehl wird in SPSS verwendet, um Items zu rekodieren?

- TRANSFORMIEREN -> UMKODIEREN IN DIE-SELBEN VARIABLEN

-  (wer einen Datensatz mit originaler Polung erhalten will, kann auch UMKODIEREN IN ANDERE VARIABLEN wählen). Es öffnet sich das in Abb. 3.1 gezeigte Fenster. In unserem Datensatz kennzeichnet der erste Buchstabe jedes Items die Dimension des Fünf-Faktoren-Modells, zu der das Item gehört (z.B. „e" für Extraversion). Umgepolte (invertierte) Items sind jeweils am Ende durch ein „i" gekennzeichnet. Diese Items werden in die Liste NUMERI-SCHE VARIABLEN verschoben (Abb. 3.1). Anschließend wird über den Befehl ALTE UND NEUE WERTE die Rekodierung spezifiziert. Es öffnet sich das Fenster in Abb. 3.2, in dem für jeden alten Wert (z.B. 5) der jeweils entsprechend umkodierte neue Wert (hier 1) definiert und durch den Befehl HINZUFÜGEN in die Liste ALT -> NEU aufgenommen wird. Durch den Befehl WEITER gelangt man zurück zum vorigen Menü, wo die Rekodierung jetzt durchgeführt werden kann.

Welcher Befehl wird in SPSS verwendet, um Items zu rekodieren?

- TRANSFORMIEREN -> UMKODIEREN IN DIE-SELBEN VARIABLEN

-  (wer einen Datensatz mit originaler Polung erhalten will, kann auch UMKODIEREN IN ANDERE VARIABLEN wählen). Es öffnet sich das in Abb. 3.1 gezeigte Fenster. In unserem Datensatz kennzeichnet der erste Buchstabe jedes Items die Dimension des Fünf-Faktoren-Modells, zu der das Item gehört (z.B. „e" für Extraversion). Umgepolte (invertierte) Items sind jeweils am Ende durch ein „i" gekennzeichnet. Diese Items werden in die Liste NUMERI-SCHE VARIABLEN verschoben (Abb. 3.1). Anschließend wird über den Befehl ALTE UND NEUE WERTE die Rekodierung spezifiziert. Es öffnet sich das Fenster in Abb. 3.2, in dem für jeden alten Wert (z.B. 5) der jeweils entsprechend umkodierte neue Wert (hier 1) definiert und durch den Befehl HINZUFÜGEN in die Liste ALT -> NEU aufgenommen wird. Durch den Befehl WEITER gelangt man zurück zum vorigen Menü, wo die Rekodierung jetzt durchgeführt werden kann.

Welche Optionen stehen für die Ausführung von SPSS- Befehlen zur Verfügung?

- mit dem Befehl OK wird die jeweilige Berechnung unmittelbar ausgeführt und das Ergebnis in der SPSS-Ausgabe angezeigt

- mit der Option EINFÜGEN wird der Befehl zunächst in ein SPSS-Syntax-Dokument geschrieben, wo er jederzeit markiert und durch Anklicken des Buttons ausgeführt werden kann.

- empfohlen wird die zweite Option, da nur so die Aktionen nachvollziehbar sind und Fehler ggf. vor der Ausführung korrigiert werden können

Welche Kennwerte zur Kennzeichnung von von univariaten Verteilungseigenschaften lassen sich - in Abhängigkeit vom Skalenniveau- auch für Items eines Tests berechnen?

- zentrale Tendenz (Mittelwert, Median, Modus)

- Streuung (Varianz, Perzentile, Streubreite)

- Form der Verteilung (Schiefe, Exzess)

Wiederholung Statistik- Was ist der Modus oder Modalwert?

- die Merkmalsausprägung mit der größten Häufigkeit

- auch anwendbar bei Merkmalen, deren Ausprägungen nur Kategorien sind

- x mod

Wiederholung Statistik- Was ist der Median?

- der mittlere Wert eines geordneten Datensatzes

- auch Zentralwert genannt

- nur bei mindestens ordinalskalierten Merkmalen anwendbar

- bei ungeradem n ist der Wert eindeutig bestimmt

- bei geradem n und ordinalskaliertem Merkmal nicht eindeutig bestimmbar

- bei geradem n und metrisch skaliertem Merkmal wird aus den beiden zentralen Werten der MIttelwert gebildet

- x med oder x Schlange

Wiederholung Statistik- Was ist der Mittelwert?

- ergibt sich, indem man alle Werte eines Datensatzes addiert und das Ergebnis durch n teilt

- nur bei metrisch skalierem Merkmal anwendbar

- auch arithmetisches Mittel genannt

- x quer

Wiederholung Statistik- Was ist die Varianz?

-  Kenngröße der Wahrscheinlichkeitsverteilung einer reellen Zufallsvariablen

- beschreibt die erwartete quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert

- damit stellt die Varianz das zweite zentrale Moment der Zufallsvariablen dar

- die Quadratwurzel der Varianz wird Standardabweichung der Zufallsvariablen genannt

Wiederholung Statistik- Was sind Perzentile?

- Prozentrang

- gibt an, wie z. B. der Teilnehmer im Vergleich zu den anderen Testteilnehmern abgeschnitten hat

Wiederholung Statistik- Was sind Strukturgleichungsmodelle?

 - sachlogisch und theoretisch fundierte Beziehungsstrukturen (Hypothesen) zwischen latenten Variablen werden einer empirischen Prüfung unterzogen

- es müssen für die hypothetischen Größen geeignete Messmodelle formuliert werden, die sich im Fall von sog. reflektiven Messmodellen mit Hilfe der konfirmatorischen Faktorenanalyse überprüfen lassen

. Sind zuverlässige Messmodelle gefunden, so können mit deren Hilfe auch die vermuteten Kausalzusammenhänge zwischen den betrachteten hypothetischen Konstrukten, die in dem sog. Strukturmodell abgebildet werden, empirisch überprüft werden.

Ein Exzess, der häufiger negativ als positiv ist, deutet hin auf eine.....?

- Tendenz zur eher breitgipfligen Verteilung

Wiederholung Statistik- Was ist die Kurtosis?

- Die Wölbung, Kyrtosis, Kurtosis oder auch Kurtose (griechisch κύρτωσις kýrtōsis „Krümmen“, „Wölben“) ist eine Maßzahl für die Steilheit bzw. „Spitzigkeit“ einer (eingipfligen) Wahrscheinlichkeitsfunktion, statistischen Dichtefunktion oder Häufigkeitsverteilung.

- Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen.

 

Wiederholung Statistik- Was ist der Exzess?

Der Exzess gibt die Differenz der Wölbung der betrachteten Funktion zur Wölbung der Dichtefunktion einer normalverteilten Zufallsgröße an.

Was ist der Kolmogorov- Smirnov- Test?

Der Kolmogorow-Smirnow-Test (KS-Test) (nach Andrei Nikolajewitsch Kolmogorow und Nikolai Wassiljewitsch Smirnow) ist ein statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen.

Mit seiner Hilfe kann anhand von Zufallsstichproben geprüft werden, ob

  • zwei Zufallsvariablen die gleiche Verteilung besitzen oder
  • eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt

Wiederholung Statistik- Was ist die Schiefe einer Verteilung?

Die Schiefe (englischer Fachausdruck: Skewness bzw. Skew) ist eine statistische Kennzahl, die die Art und Stärke der Asymmetrie einer Wahrscheinlichkeitsverteilung beschreibt. Sie zeigt an, ob und wie stark die Verteilung nach rechts (positive Schiefe) oder nach links (negative Schiefe) geneigt ist.

Jede nicht symmetrische Verteilung heißt schief

Wiederholung Statistik- Was ist die Standardabweichung?

- die Standardabweichung s ist die Wurzel aus der Varianz s quadrat

- Maß für die Streuung der Werte in einer Stichprobe

- nur bei intervall- oder verhältnisskalierten Merkmalen sinnvoll

- Wert zwischen 0 und 1

Wie ist die Itemschwierigkeit definiert?

- als der prozentuale Anteil der richtigen Lösungen (bei ja/nein- Fragen) an allen Lösungen eines Items innerhalb einer Stichprobe

- dabei ist N R die Anzahl aller Prbanden, die die Aufgabe richtig im Sinne des Aufgabenkriteriums gelöst haben

- N die Anzahl aller Probanden

- P = Schwierigkeitsindex ohne Korrektur

In welchem Verhältnis steht der Index der Itemschwierigkeit mit der Anzahl der richtigen Lösungen?

Der Index steigt mit der Anzahl der richtiggen Lösungen

In welchem Verhältnis steht die Anzahl der vorgegebenen Antwortmöglichkeiten zur Ratewahrscheinlichkeit?

- je mehr Antwortmöglichkeiten vorgegeben werden, desto geringer ist die Wahrscheinlichkeit, die richtige Lösung zu finden

- bei ja/nein- Antworten beträgt die Ratewahrscheinlichkeit 50%

- der Zufallsfaktor sollte daher bei dichotomen und Mehrfachwahlaufgaben korrigiert werden

- dabei ist

N F= die Anzahl der Probanden, die die Aufgabe falsch im Sinne des Aufgabenkriteriums gelöst haben

m = Anzahl der Wahlmöglichkeiten (bei dichotomen Aufgaben mit m = 2 entfällt der Ausdruck m - 1)

PZK = Schwierigkeitsindex mit Zufallskorrektur

NR = Anzahl der Probanden, die die Aufgabe richtig (im Sinne des Aufgabenkriteriums) gelöst haben

N = Anzahl aller Probanden

Welcher korrigierten Itemschwierigkeit entspricht bei einer dichotomen Aufgabe ein Anteil von 75 % richtiger Lösungen?

50 %

Welcher korrigierten Itemschwierigkeit entspricht bei einer Aufgabe mit 5 Antwortmöglichkeiten  ein Anteil von 60 % richtiger Lösungen?

50 %

Was versteht man unter dem Schwierigkeitsindex mit Inangriffnahmekorrektur?

Bei zeitbegrenzten Leistungstests, bei denen nicht alle Items von allen Probanden bearbeitet werden können, oder bei einem aus sonstigen Gründen hohen Anteil fehlender Werte, kann bei den obigen Formeln anstelle des gesamten N im Nenner auch NB für die Anzahl derjenigen eingesetzt werden, die das Item überhaupt bearbeitet haben.

Wie berechnet manTransformation und Schwierigkeitsanalyse bei Ratingskalen?

- die Antwortskala muss so transformiert werden, dass das theoritische Minimum den Wert  annimmt (analog zu 0 richtigen Lösungen)

- z. B. durch eine Transformation um -1 (von 1 - 5 auf 0- 4)

- danach berechnet sich die Schwierigkeit nach der Formel für den Schwierigkeitsindex ohne Korrektur, wobei jedoch für die Anzahl richtiger Lösungen der (transformierte) Mittelwert des Items I eingesetzt werden muss und für die Anzahl der Probanden der (transformierte) Maximalwert x max des Items.

- Im Beispieldatensatz (vgl. Abb. 3.6) berechnen wir z.B. für das erste Item eb01 eine Schwierigkeit von: ((3,57 – 1) / (5 – 1)) x 100 = 64,25. Die geringste Schwie-rigkeit erreicht Item nb04 mit 27,75, die höchste Item ob10 mit 80,5.

Was bedeutet die Itemschwierigkeit für die Beurteilung der Aufgaben eines Tests?

- grundsätzlich möchte man mit einem Test Personen mit hoher Ausprägung eines Merkmals von solchen mit niedriger Ausprägung unterscheiden

. Die Zahl der theoretisch möglichen Unterscheidungen, und damit die Informationshaltigkeit eines Items, hängt direkt von dessen Schwierigkeit ab

- die Informationshaltigkeit eines Items erreicht ihr theoretische Maximum bei genau mittlerer Schwierigkeit

- Wenn 100 Personen an einem Test teil-nehmen, kann ein (dichotomes) Item, das von exakt 50 Personen richtig gelöst wird, jede dieser 50 Personen von jeder der anderen 50 Personen unterscheiden. Dies ergibt im Beispiel 50 x 50 = 2.500 Unterscheidungen. Bei einer Schwierig-keit von 10 (oder 90) % ergeben sich nur mehr 10 x 90 = 900 Unterscheidungen, wenn nur noch eine Person (oder 99 Personen) auf die richtige Lösung kommt, sogar nur noch 1 x 99 = 99 Unterscheidungen.

Wann ist ein Item wertlos?

Wenn es entweder von allen oder von keinem Probanden richtig gelöst wird.

Es enthält dann keine empirische Information

Was ist in der KTT der wichtigste Indikatior dafür, wie gut jedes einzelne Items das zugrunde liegende Merkmal abbildet?

- die Trennschärfe

Was ist die Trennschärfe?

- die korrigierte Korrelation einer Aufgabe mit einer Skala

- drückt aus wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, wiederspiegelt

- bzw. wie prototypisch ein Item für diese Skala ist

Welche Annahme ist Voraussetzung dafür, dass die Trennschärfe als Indikatior für die inhaltliche Angemessenheit eines Items angesehen werden kann?

- die Summe der übrigen Itemsbzw. die gesamte Skala misst dieses Merkmal valide

- diese Annahme wird in Validierungsstudien überprüft, die nicht durch die Trennschärfenanalyse ersetzt werden können

Was unterscheidet Eigentrennschärfen von Fremdtrennschärfen?

- Eigentrennschärfe betrifft die Trennschärfe zwischen Items eines Tests

- ´Fremdtrennschärfe betrifft die Korrelationen von Items mit den Skalen oder Testwerten anderer Fragebögen oder mit Kriterien (z. B. Berufserfolg)

- Fremdtrennschärfen können für die externale Skalenkonstruktion herangezogen werden

Eine Trennschärfe ist......

.....eine Korrelation zwischen einem Item und einer Skala und liegt immer zwischen  -1 und +1

Was ist eine Part- Whole- Korrektur?

- wird vor der Berechnung der Trennschärfe vorgenommen

- ohne Korrektur würde das betreffende Item mit in den Skalenwert eingehen, mit dem es korreliert wird

- der unkorrigierte Wert stellt damit also eine partielle Eigenkorrelation dar, was zu einer Überschätzung der Trennschärfe führen würde

- dieser Effekt ist umso stärker, je kürzer eine Skala ist (das anteilige Gewicht jedes Items steigt dadurch) oder je heterogener eine Skala ist (je geringer die Items im Mittel miteinander korrelieren)

Woraus bestehen sehr komogene Skalen?

- aus hoch positive korrelierten Items