03421- Kapitel 3
Grundlangen der Testkonstruktion Kapitel 3 Itemanalyse: Kürzung und Revision des Entwurfs
Grundlangen der Testkonstruktion Kapitel 3 Itemanalyse: Kürzung und Revision des Entwurfs
Set of flashcards Details
Flashcards | 79 |
---|---|
Students | 14 |
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 17.09.2015 / 06.09.2023 |
Weblink |
https://card2brain.ch/box/03421_kapitel_3
|
Embed |
<iframe src="https://card2brain.ch/box/03421_kapitel_3/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Auf was kann eine hohe Korrealtion von Items hinweisen?
auf Redundanz der Items
Was versteht man unter negativer Trennschärfe?
- ein Item korreliert mit der Gesamtskala entgegen der erwarteten Richtung
- kann als sicheres Ausschlusskriterium für das betreffende Item gelten
Was ist vor Auschluss eines Items aufgrund negativer Trennschärfe zu beachten?
- es sollte geprüft werden, ob das Item korrekt gepolt ist
Wie wird die Trennschärfe bei Ratingskalen berechnet?
Bei Ratingskalen entspricht die Trennschärfe der Produkt-Moment-Korrelation nach Part-Whole-Korrektur.
Dabei ist:
rj(t–j) = Trennschärfekoeffizient der Aufgabe j mit der Skala t, bei der Aufgabe j nicht berücksichtigt ist
rjt = Korrelation des Items j mit der Skala t
Sj = Standardabweichung des Items j
St = Standardabweichung der Skala t
Wie wird die Trennschärfe bei dichotomen Items berechnet?
Was führt zu einer Verzerrung der Trennschärfe?
- kann nach oben oder unten verzerrt sein
- Varianz der eingehenden Variablen ist artifiziell erweitert, z. B. durch Ausreisser oder bimodale Verteilungen
- Varianz der eingehenden Variablen ist artifiziell eingeschränkt, z. B. durch Schiefe oder extreme Schwierigkeiten
Wie kann die Verzerrung der Trennschärfe geprüft werden?
- statistisch, z. B. durch SChwierigkeitsanalyse
- visuell, z. B. durch Inspektion der Histogramme
Wiederholung Statistik: Was sind bimodale Verteilungen?
- Modalwert ist definiert als Merkmalsausprägung mit der größten Häufigkeit
- bei bimodalen Verteilungen gibt es zwei Merkmalsausprägungen mit der gleichen "größten" Häufigkeit
Nenne ein alternatives Verfahren zur Korrektur der Trennschärfen von Items mit extremen Schwierigkeiten.
- schwierigkeitsproportionalen Stichprobenverteilung
- Moosbrugger und Zistler (1993)
Was ist der so genannte Selektionskennwert?
- im Rahmen der schwierigkeitsproportionalen Stichprobenverteilung
- eine Art Korrektur der Trennschärfe um die Varianzeinschränkung
Wie erfolgt die Trennschärfenanalyse in SPSS?
über den Befehl ANALYSIEREN -> SKALIERUNG -> RELIABILITÄTSANALYSE
Worum geht es in der probabilistischen Testtheorie?
- wie Antworten auf Items zustandekommen
- es werden Antwortmuster untersucht
- welche Parameter bei der Itemlösung eine Rolle spielen, wird in verschiedenen Testmodellen formalisiert
Was ist das Rasch- Modell?
- wichtigstes Modell für die Testkonstruktion aus der Familie der Probabilisischen Testmodelle
Grundlagen des Rasch- Modells- was sagt es voraus?
- dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung zunimmt
Rasch- Modell: Wovon hängt die Lösungswahrscheinlichkeit für ein bestimmtes Item ab?
- von der Fähigkeit oder Eigenschaftsausprägung einer Person
- von der Schwierigkeit des Items
- Itemparameter, der die Itemschwierigkeit angibt, wird als σ (Sigma) bezeichnet
- Personenparameter, der die Fähigkeitsausprägung angibt, wird mit θ (Theta) bekennzeichnet.
- Der Personenparameter stellt den Ort oder den Wert einer Person auf der latenten Variablen θ dar.
- erfasst man beispielsweise die latente Variable „Intelligenz", entspricht der Wert einer Person auf der latenten Variablen seiner Intelligenz. Aus diesem Grund bekommen Personenfähigkeit und latente Variable dieselbe Bezeichnung (θ : Theta).
- Je größer die Fähigkeit eines Probanden θ im Vergleich zur Schwierigkeit des Items σ ist, desto größer wird die Wahrscheinlichkeit (p), die Aufgabe zu lösen.
Rasch- Modell: Die Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist probabilistisch. Was bedeutet das?
auch eine Person mit geringer Fähigkeit im Vergleich zur Schwierigkeit eines Items hat eine gewisse Wahrschein-lichkeit, das Item zu lösen
Was sagen Modelltests im Rahmen der PTT aus?
Im Fall, dass das Rasch- Modell durch den Modelltest nicht abgelehnt wird, gilt:
- der ungewichtete Summenwert der Itemantworten sagt wirklich etwas über den Ausprägungsgrad einer Person auf der latenten Variablen ( Fähigkeits- oder Eigenschaftsausprägung) aus
- der Summenwert ist eine erschöpfende Statistik der Personfähigkeit
- erschöpfende Statistik heisst, der Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung einer Person
- das Antwortmuster der Person muss nicht mehr Item für Item betrachtet werden
- ist der Test eindimensional
Wann ist ein Item ein guter Indikator für eine Fähigkeit oder Personeneigenschaft?
- wenn die Antwort auf dieses Item komplett auf eine einzige Fähigkeits- oder Eigenschaftsaufprägung zurückzuführen ist
- man spricht auch davon, dass der Test ein eindimensionales Konstrukt misst
Wann ist Eindimensionalität formal gegeben?
- wenn die Korrelation zwischen den Items eines Tests nach Auspartialisierung der latenten Eigenschaft (d.h. bei deren konstanter Ausprägung) verschwindet (lokale Unabhängigkeit)
- lokale stochastische Unabhängigkeit
- lokale stochastische Unabhängigkeit ist dann gegeben, wenn für jede einzelne Person die Lösungswahrscheinlichkeiten zweier beliebiger Items multipliziert werden dürfen um die kombinierte Lösungswahrscheinlichkeit beider Items zu ermitteln
- Beispiel: Wenn einer Person zwei Items mit Lösungswahrscheinlichkeiten von je .50 vorgelegt werden, beträgt bei lokaler stochastischer Unabhängigkeit die Wahrscheinlichkeit, dass diese Person beide Items löst, .25.
Rasch- Modell: Was bedeutet spezifische Objektivität?
Rasch glaubte, dass spezifische Objektivität im Kontext einer psychologischen Messung durch zwei Arten invarianter Vergleiche gekennzeichnet ist:
(1) Vergleiche zwi-schen Personen sind invariant über die spezifischen Items und Maße, die verwendet werden, und
(2) Vergleiche zwischen Items sind invariant über die spezifischen Personen, an denen die Items kalibriert werden. Auch diese Eigenschaften treffen auf Rasch-skalierte Tests zu.
Was benötigt man, um die Personenfähigkeit festzustellen?
- die Itemparameter
- diese kann man mit Hilfe der conditional Maximum-Likelihood-Methode (cML) schätzen
-
Warum werden nicht die Itemrohwerte zur Bestimmung der Personenfähigkeit verwendet?
- sind nicht intervallskaliert, daher keine belastbaren Aussagen über die Unterschiede zwischen Personen
Welches Skalenniveau besitzen Personenparameter?
- Differenzskalenniveau (logarithmierte Verhältnisskala) und haben eine sogenannte Logit-Einheit
- diese Einheit ist erst einmal abstrakt
- Beispiel: Wie viele Orangen ergeben einen Liter Orangensaft? Diese Frage ist nicht eindeutig zu beantworten. Dies hängt von der Größe der Orangen ab. Das heißt, das Zählen von Orangen löst das Problem nicht. Erst wenn man auf abstrakte Einheiten wie Liter zurückgreift, kann man eine bestimmte Menge (in der Psychologie eine Merkmalsausprägung) messtheoretisch befriedigend abbilden. Da man den Ort einer Person auf der latenten Variablen nicht kennt, schätzt man ihn mit Hilfe eines Personenparameters, der eine abstrakte Logit-Einheit besitzt.
Was stellt die Logit- Transformation dar?
- die Transformation der Rohwerte in die geforderte abstrakte Einheit
- nicht- lineare Transformation, die die Differenzskalenniveau von Item- und Personenparameter sichert
- lässt damit im Gegensatz zu ordinalskalierten Rohwerten die Interpretation von Differenzen zwischen Fähigkeits- oder Eigenschaftsausprägungen zu
In welchem Wertebereich liegt der Logit- Wertebereich der Personen- und Itemparameter?
- theoretisch zwischen plus und minus unendlich
- in der Regel zwischen plus und minus drei
- negative Werte kennzeichnen leichte Items oder Personen mit geringen Fähigkeiten
- positive Werte kennzeichnen schwere Items (von wenigen Personen gelöst oder geringe Zustimmung) oder Personen mit höherer Fähigkeit
Warum ist es plausibel, dass Personen- oder Itemparameter einen Wertebereich von plus und minus unendlich besitzen?
- es gibt unendlich viele Möglichkeiten, Items zu konstruieren
Was ist die ICC (Item Characteritic Curve)?
- Personen- und Itemparameter besitzen nun dasselbe Skalenniveau und dieselbe Einheit
- können dadurch additiv (Additivität, genauer gesagt subtraktiv) verknüpft werden.
- die Lösung eines Items wird immer wahrscheinlicher, je weiter die Fähigkeit oder Eigenschaftsausprägung die Itemschwierigkeit übersteigt: θ - σ
- die Beziehung zwischen Itemlösungswahrscheinlichkeit sowie Fähigkeits- oder Eigenschaftsausprägung und Itemschwierigkeit ist dabei eine logistische Funktion
- eine logistische Funktion zwischen Itemlösungswahrscheinlichkeit und den Parametern im Modell anzunehmen ist psychologisch und mathematisch sehr plausibel
- man bezeichnet diese logistischen Funktionen für ein Item auch als Item-Characteristic-Curve (ICC).
Wie kann man die im Studienbrief angegebene ICC interpretieren?
In Abbildung 3.15 ist auf der Y-Achse die Itemlösungswahrscheinlichkeit aufgetragen und auf der X-Achse die gemeinsame Einheit von Personen- und Itemparameter. Die Itemschwierigkeit kann man ermitteln, indem man von der Y-Achse bei 0.5 nach rechts geht bis zur logistischen Funktion für das erste Item und dann von diesem Schnittpunkt ein Lot auf die X-Achse fällt.
Formel für die Lösungswahrscheinlichkeit für ein dichotomes Item im Rahmen des Rasch- Modells bei gegebenem Item- und Personenparameter?
p(Xvi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortka-tegorie x zu wählen
θv = Personenparameter für eine Person v
σi = Itemparameter eines Items i
Exp = Exponentialfunktion
xvi = Wert einer Person v auf dem Item i (im dichotomen Fall: 0 für „falsch gelöst" und 1 für „richtig gelöst")
Was ist der grafische Modelltest?
- durch Modelltests wird festgestellt, obdas Rasch-Modell durch die Daten abgelehnt werden muss
- die einfachste Methode stellt der Grafische Modelltest dar
- es handelt sich um ein Streudiagramm,in dem die geschätzten Itemparameter aus zwei Stichproben dargestellt werden
- In einem Intelligenztest kann beispielsweise die Stichprobe am Median der Testleistung in zwei Stichproben mit überdurchschnittlichem und unterdurchschnittlichem Summenwert eingeteilt werden
- Die Schätzung der Itemparameter sollte dabei unabhängig von der Teilstichprobe sein
- auf der X- und Y-Achse sind die Logit-Einheiten der Itemparameter für die jeweiligen beiden am Median des Summenwerts geteilten Stichproben aufgetragen. Die ansteigende Linie im Diagramm zeigt die Regressionsgerade der Parameter einer Teilstichprobe auf die andere
- Im Idealfall liegen die Schätzungen der Itemparameter in beiden Stichproben auf der Regressionsgeraden und diese fällt mit der Winkelhalbierenden zusammen. Dies ist im Beispiel nur annähernd der Fall. So beträgt etwa die Abweichung der Parameterschätzungen für Item 11 für beide Gruppen ungefähr .50, während für Item 7 beide Schätzungen fast identisch sind.
Welche Nachteile hat der grafische Modelltest?
- es handelt sich nicht um einen Signifikanztest
Welche Annahmen treffen zu, wenn das Rasch- Modell durch einen Modell- Test NICHT abgelehnt wird?
- Die Lösungswahrscheinlichkeit wird durch eine logistische Funktion beschrieben.
- Summenwerte sind suffiziente oder erschöpfende Statistiken der Personenfähigkeit.
- Vergleiche zwischen Items und Personen sind spezifisch objektiv.
- Items sind – abgesehen von wenigen Ausnahmen – eindimensional (die Forderung der lokalen stochastischen Unabhängigkeit der Items ist erfüllt).
Welche Annahme wird häufig noch formuliert, wenn das Rasch- Modell durch Modelltests nicht abgelehnt wird?
- dass alle Items die gleiche Trennschärfe besitzen
- Diese Annahme ist jedoch nur im Rahmen des dichotomen Rasch-Modells notwendig und ist eine Grundvoraussetzung für erschöpfende Statistiken
- Für ordinale Rasch-Modelle (mehr als zwei geordnete Antwortalternativen, z.B. Likert-Skala) sind gleiche Itemtrennschärfen nicht zwingend, dafür jedoch geordnete Antwortschwellen.
Welches Modell der PTT ist eine Erweiterung des Rasch- Modells?
2- Parameter- Modell, auch Birnbaum- Modell
- enthält einen Trennschärfe- Parameter
Formel des 2- Parameter- Modells?
p(Xvi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortka-tegorie x zu wählen
θv = Personenparameter für eine Person v
σi = Itemparameter eines Items i
Exp = Exponentialfunktion
xvi = Wert einer Person v auf dem Item i (im dichotomen Fall: 0 für „alsch gelöst" und 1 für „ichtig gelöst")
βi = Trennschärfeparameter von Item i
Als was ist die Itemschwierigkeit definiert?
- Die Itemschwierigkeit ist definiert als die Stelle auf der x-Achse, an der die Lösungswahrscheinlichkeit .50 ist.
- lässt sich grafisch ermitteln, indem man von einer Lösungswahrscheinlichkeit von .50 auf der y-Achse eine Linie zu der entsprechenden ICC zieht und dann ein Lot von dem ICC-Schnittpunkt auf die x- Achse fällt
Welche negativen Konsequenzen haben unterschiedliche Trennschärfen für die Berechnung der Itemparameter?
- die unterschiedlichen Trennschärfen müssen zusätzlich geschätzt werden und erhöhen so die Anzahl der zu schätzenden Parameter
- geht auf Kosten der Schätzgenauigkeit
- ungewichtete Summenwertbildung nicht mehr zulässig, da wegen unterschiedlicher Trennschärfen eine Gewichtung mit der Itemtrennschärfe vorgenommen werden müsste
- daher wird im dichotomen Rasch-Modell die Annahme gemacht, dass alle Trennschärfen gleich sind.
Was versteht man unter einer Irrtumswahrscheinlichkeit?
- dass eine Person trotz hoher Fähigkeit ein im Verhältnis zu ihrer Fähigkeit leichteres Item mit einer kon-stanten Wahrscheinlichkeit nicht löst