Diagnostik I
..
..
Set of flashcards Details
Flashcards | 120 |
---|---|
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 14.03.2018 / 08.08.2018 |
Weblink |
https://card2brain.ch/box/20180314_diagnostik_i
|
Embed |
<iframe src="https://card2brain.ch/box/20180314_diagnostik_i/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Aufgaben mit gebundenem Antwortformat – Ordnungsaufgaben
Zuordnungsaufgaben
- Zeichen oder Inhalte werden anderen Zeichen oder Inhalten zugeordnet
- Aufgabe — Bildsymbole müssen den entsprechenden Zeichen zugeordnet werden
>> Fähigkeit Regeln zu verstehen
Aufgaben mit gebundenem Antwortformat – Ordnungsaufgaben
Umordnungsaufgaben
- Bilder oder Inhalte in logische Reihenfolge bringen
- Abfolgen zu erkennen >> mit Bilder Geschichte erzählen
Vor- und Nachteile von Ordnungsaufgaben
+ einfach, ökonomisch und objektiv
+ zufällige Beantwortung weniger problematisch als bei Auswahlaufgabe
+ sprachliche Fertigkeiten werden nicht mitgemessen
+ eignen sich auch zur Überprüfung von Wissen (v. a. bei Zuordnung), Schlussfolgerungen sowie Ursache-Wirkungs-Zusammenhängen (v. a. bei Umordnung)
+ Abstratktionsfähigkeit kann getestet werden
- nur Rekognition/Wiedererkennen, keine Reproduktion nötig
- nach jeder richtigen Antwort nehmen die Freiheitsgrade ab — am Schluss hat man nur noch eine Auswahlmöglichkeit
- Materialverbrauch bei Umordnungsaufgaben hoch
Aufgaben mit gebundenem Antwortformat – Auswahlaufgaben
Dichotome Aufgaben
- Richtig-falsch-Aufgaben (auch: trifft zu/trifft nicht zu) — nur zwei Antwortalternativen
- „Ich gehe Abends gerne aus“
- bei Leistungstests auch zwei Rechenaufgaben nebeneinander (!)
- dort muss man schnell entscheiden ob die Rechnung stimmt oder nicht
- unechte Dichotomie: „Ich gehe abends gerne aus.“ Stimmt – Stimmt nicht (nicht „richtig/falsch“)
- nur die Rechnung ist eine echte Dichotomie, bei den "Abends gerne aus" Fragen will man unter Umständen etwas dazwischen ankreuzen >> Man verliert an Information
- nur die Rechnung ist eine echte Dichotomie, bei den "Abends gerne aus" Fragen will man unter Umständen etwas dazwischen ankreuzen >> Man verliert an Information
Vor- und Nachteile von dichotomen Aufgaben
+ ökonomisch —> kurze Bearbeitungs-, Lösungs- und Auswertungszeit
+ Testinstruktion i. d. R. leicht verständlich
- Ja-Nein-Items müssen so formuliert werden, daß sie eindeutig beantwortet werden können
- 50 % Zufallslösungen —> Ratewahrscheinlichkeit hoch
- kaum differenzierte Informationen
>> Akquieszenz (Zustimmungstendenz, Ja-sage-Tendenz) >> Menschen stimmen so eher zu als wenn sie auf einer Skala differenzierter Antworten können
Mehrfachwahlaufgaben (Multiple Choice)
+ Vor und Nachteile
- Achtung, nicht bei Persönlichkeitstests, auch wenn es mehrere Antwortmöglichkeiten gibt
- Bei Leistungstests die richtige, bei Persönlichkeit die zutreffende
Vor- und Nachteile von Mehrfachwahlaufgaben
+ Durchführung und Auswertung ökonomisch und objektiv
+ mit steigender Anzahl Antwortalternativen ist eine zufällige Beantwortung weniger problematisch
- geeignete Antwortalternativen zu finden ist evtl. schwierig, da alle falschen Antworten gleich wahrscheinlich gewählt werden sollten
- Antworten können Hinweise auf richtige Lösung enthalten
- nur Rekognition/Wiedererkennen, keine Reproduktion nötig
- nicht für alle Konstrukte sinnvoll
Wahl geeigneter Distraktoren
Alternativmöglichkeiten in der Weise konstruierten, dass sie zwar richtig aussehen, aber inhaltlich falsch sind
>> nur wenn ähnlich, wird der Auswahlprozess ohne Kenntnisse schwierig
- sollten plausibel sein
- alle Alternativen ähnliche Länge und grammatikalische Struktur
- Antwort soll mit Aufgabenstamm/Stimulusteil sprachlich übereinstimmen
- Alternativen möglichst kurz halten
- nicht mehrere Distraktoren mit gleichem Inhalt, sonst zu leicht ausschliessbar
- Position der korrekten Antwort soll variieren
- „all of the above“, „none of the above“ (alle/keine sind richtig) möglichst sparsam einsetzen
Disjunktheit der Antwortmöglichkeiten
disjunkt: Antwortalternativen sollten sich gegenseitig ausschließen („Kreuzen Sie Ihren aktuellen Zivilstand an“ — verheiratet, ledig, getrennt, geschieden)
nicht disjunkt: Antwortalternativen schließen sich nicht gegenseitig aus („Kreuzen Sie Ihren Partnersituation an“ — ledig, offene Partnerschaft, monogame Partnerschaf, verwitwet, mit Partner lebend)
Exhaustivität der Antwortmöglichkeiten
- Vollständigkeit der Antwortalternativen >> Kann man das was zutrifft ankreuzen?
- wichtig bei Persönlichkeitstests (zur Not Feld „andere: _________“) >> da man möglicherweise nicht alle auflisten kann
Spezialfall: Forced Choice — Antwort muss nicht 100% zutreffen, man soll einfach die Auswählen, die am meisten zutrifft — extra keine Exhaustivität
Aufgaben mit gebundenem Antwortformat – Beurteilungsaufgaben
Persönlichkeitstests — Ausprägung des Merkmals
- Zustimmungs- oder Ablehnungsgrad zu einer im Aufgabenstamm vorgelegten Aussage
- Antwortkategorien sind item-unspezifisch formuliert, sie gelten einheitlich für alle Items des Tests
diskret gestufte Ratingskala
- mehr als zwei abgestufte Antwortkategorien, die eine Rangordnung darstellen sollen
- Bsp.: 1 – fast nie / 2 – manchmal / 3 – oft / 4 – immer
kontinuierliche Analogskala
- keine Abstufungen, differenziertere Antworten, Auswertung mit Messskala („nie ----------------------X----- immer“) —-> Kreuz setzten wo es zutrifft
- nutzt man wenn man weiss, dass die Person sehr differenziert beurteilen kann (besonders wenn es darum geht einen Start und Endwert herauszufinden -- man kann auch kleine unterschiede sehen, nicht nur einen Unterschied zwischen zwei Zahlen)
Überlegungen zu Ratingskalen bei Beurteilungsaufgaben
Anzahl Skalenstufen (Differenziertheit)
Wie differenziert soll das Konstrukt behandelt werden?
- i. d. R. werden 3 bis 7 Stufen verwendet, je nach dem vermuteten Grad der kognitiven Differenziertheit des zu testenden Konstruktes
- bei mehr als 7 Stufen gibt es nicht mehr Informationsgewinn >> die meisten Leute können dass nicht mehr bestimmen, nur bei der Stimmung werden manchmel mehr verwendet
- Bei vielen Stufen tendieren Personen dazu extreme Antworten zu wählen >> Überforderung
- Spezialfall: visuelle Stufen, z. B. Smileys :-( :-| :-) —> Gesichter als Antwortmöglichkeit (diskret gestuft)
Überlegungen zu Ratingskalen bei Beurteilungsaufgaben
bipolar vs. unipolar
- unipolares Item geht von einem Nullpunkt aus und nur in eine Richtung
- Bsp.: „Wie oft fahren Sie Auto?“ nie – selten – manchmal – oft – sehr oft
- bipolares Item verläuft von einem negativen Pol über einen Nullpunkt (Indifferenz, z. B. „weder noch“) bis zu einem positiven Pol
- Bsp.: „Ich fühle mich oft angespannt und nervös“
- starke Ablehnung – Ablehnung – weder Ablehnung noch Zustimmung – Zustimmung – starke Zustimmung
- Bsp.: „Ich fühle mich oft angespannt und nervös“
Ratingskalen bei Beurteilungsaufgaben
Bezeichnung der Skalenstufen („labels“)
Bezeichnung der Skalen (numerisch, verbal, optisch oder gemischt) –“labels“ >> was eignet sich am besten
Verbale Etikettierungen haben den Vorteil, dass die Bedeutung der Antwortstufen durch eine sprachliche Umschreibung vereinheitlicht wird. Aber
- Interpretation von solchen Ettikettierungen muss einem bewusst sein, nich jeder interpretiert ein Begriff gleich >> kann auch gewollt sein!
- Eine Benennung mit Zahlen soll oftmals bewirken, dass die Ratingskala wie eine Intervallskala benutzt wird.
- Bei einer Kombination aus beiden erhofft man sich die Vorteile von beiden Varianten.
- Wie sehr vertrauen sie ihrem Partner? 1 Gar nicht >> 5 sehr stark
- Wichtig dass man gleiche Abstände zwischen den Punkten wählt wenn man alle Zahlen beschriftet! Ansonsten einfach die Pole und die Mitte beschriften
Ratingskalen bei Beurteilungsaufgaben
Neutrale Mittelkategorie
- nicht immer eindeutig interpretierbar
- Unentschiedenheit; versteht Item nicht; hält Item für unpassend; verweigert Antwort; „typische“ Antwort; Unmotiviertheit/Gleichgültigkeit
Wenn ich menen Partner unterstütze oder ihm helfe, tue ich dies meist weil ich später in irgendeiner Form eine Gegenleistung erwarte >> Stimme gar nicht zu >> stimme mässig zu >> stimme völlig zu
- andere Gründe haben die Mitte anzukreuzen >> Unentschiedenheit >> schwierig zu interpretieren
- bei bipolaren Items weiss man dass die reliabilität erhöht wird wenn eine Mitte vorhanden ist >> oft hofft man eine mittlere Ausprägung zu erhalten
Ratingskalen bei Beurteilungsaufgaben
Weiss-nicht Kategorie
Essen Sie gerne japanisches Essen?
ja > nein > ich weiss nicht
- Person könnte meinen >> Sie hat noch nie japanisch gegessen oder weder gerne noch nicht gerne!
- Weiss nicht Kategorie wird nie in Auswertung eingeschlossen! >> Datenverlust
- besser eine Weitere "Dazwischen" Kategorie + Möglichkeit zu sagen, dass man es nicht kennt >> Mittelkategorie + weiss nicht
- Wichtig eine weiss nicht Kategorie wenn es inhaltlich Sinn macht
- Besser aber wenn es Fragen sind, bei der Alle eine Mögliche Antwort haben
>> Bei jedem Fragebogen überlegen was inhaltlich Sinn macht!
Ratingskalen bei Beurteilungsaufgaben:
Reverse kodierte (invertierte) Items
Items mit einer negativen Valenz, d.h. sie gehen in die umgekehrte Richtung in der Erfassung des Merkmals
- Tiefer Wert = Hohe Ausprägung in einem Merkmal
Vorteile
- Man kann schauen ob eine Person Aufmerksam beantwortet >> Wird genau gelesen? Werden nur hohe oder nur tiefe Antworten gegeben? Ist es merkmalskonform?
- Schwelle wird geändert >> "Ich fühle mich selten einsam und traurig" >> wird anders beantwortet als "Ich fühle mich oft einsam und traurig"
- Verringert Ja-Sage-Tendenz
Nachteile
- Personen mögen sie nicht gerne, werden oft als verwirrend angesehen >> Fehlertendenz
- das Wort "nicht" wird überlesen
- Wichtig dass es genau so extreme "normale" items hat, wie umgepolte
- genügend, über den Test verteilte umgepolte Items, nicht nur eines!
Ratingskalen bei Beurteilungsaufgaben:
Intensität vs. Häufigkeitsskalen
Frage ich nach Intensität oder nach Häufigkeit?
Intensität -- subjektive Einschätzungen
Häufigkeit -- Nach Anzahl fragen >> konkrete Antworten
- Ich war im letzten Monat oft aufgebracht, weil etwas unerwartetes geschehen ist? >> Nicht - sehr
- Wie oft waren Sie im letzten Monat aufgebracht, weil etwas unerwartetes geschehen ist? >> nie - immer
Intensitätsangebe hier ist nicht direkt interpretierbar!
Aber auch die Häufigkeitsangeben sind teilweise schwer interpretierbar, da man nicht genau weiss wie oft "manchmal" heisst
- Wenn man genaue Angaben wie 1-2x pro Woche macht, kann man es genauer Interpretieren
Vor- und Nachteile Beurteilungsaufgaben mit mehrstufige Ratingskalen
Vorteile:
— ökonomisch bei Durchführung und Auswertung — kürzere Bearbeitungszeit
— (relativ) differenzierte Informationen
Nachteile:
— Konstruktion kann aufwendig sein
— subjektiv unterschiedliche Auffassung der Abstufungen (eigentlich Ordinalskalierung)
- mittlere oder neutrale Antwortkategorie kann problematisch sein
- Verfälschungen (z.B. Antworttendenzen)
Allgemeine Probleme bei Itembeantwortung
Verfälschungen die Unabhängig vom Konstrukt sind
- Systematische Fehler die Validität verringern
- Beantwortung der Intems die nichts mit dem Merkmal zu tun haben die Interpretation verfälschen
1. Absichtliches Fälschen >> Simulation
- schwierig zu Umgehen
- Wenn die Person nicht weiss, was gemessen wird kann mann Fälschen verringern
- Annonymität hilft Fälschen zu verringern
>>Optimizing- Satisficing- Modell
- Optimizing: positiver Grund als Motivation für Teilnahme (Bsp. Selbstbild, Altruismus oder Belohnung) >> zwar gründliche Bearbeitung der Items, aber Verzerrungen
- Satisficing: zur Teilnahme verpflichtet / beiläufige Teilnahme >> oberflächliche/arbiträre Beantwortung der Items
- Motivation steigern, klar machen, dass es wichtig ist.
- Leute möglichst nicht zwingen
2. Soziale Erwünschtheit
- Art der Optimizing Problems
- Selbst- vs. Fremdtäuschung
- Verringerung durch Aufklärung des Untersuchungsgegenstands, Anonymität, obj. Persönlichkeitstests oder Kontrollskala
- besser schriftlich als mündlich >> Abstand zwischen Proband und Testleiter verringert soziale Erwünschtheit
- Kontrollitems "Manchmal lüge ich wenn ich muss" / "Zu viel Wechselgeld nicht zurückgeben" >> Wenn solche Items alle mit nein beantworten, kann das heissen, dass die Person nach sozialer erwünschtheit beantwortet
3. Antworttendenzen
- die von der zu messenden Personeneigenschaft unabhängige Neigung einer Person die Ratingskale in einer bestimmten Art und weise zu gebrauchen
- Tendenz zur Mitte
- Akquieszenz
Kriterien der Itemformulierung - Kriterien der Itemformulierung
- direkt/indirekt
- Merkmal direkt ansprechen oder nach einem Verhaltensindikator fragen
- Bsp.: „Halten Sie sich für rücksichtsvoll?“ (direkt)
- Indikator (indirekte Frage nach konkreter Situation) meist besser: „Halten Sie an, wenn jemand am Fußgängerüberweg steht?“
- Indikatoren geben meist bessere Antworten, man muss sie aber gut auswählen
- hypothetischer/tatsächlicher Sachverhalt
- Bsp.: „Würden Sie helfen, wenn Sie beobachten, wie jemand belästigt wird?“
- eher Fehleinschätzung bei hypothetischem Sachverhalt >> Soziale Erwünschtheit
- besser nach konkretem Sachverhalt fragen: „Als Sie das letzte Mal beobachtet haben...“
- konkret/abstrakt
- Bsp.: „Sammeln Sie gerne Briefmarken?“
- konkrete Fragen sind situationsabhängig, abstrakte Fragen führen aber zu Fehleinschätzungen
- personalisiert/depersonalisiert
- Bsp.: „Sollten möglichst viele gegen ein Ausländergesetz demonstrieren?“ (depersonalisiert)
- zuverlässigere Information bei personalisierten Fragen: „Würden Sie gegen ein...“
- danach fragen was die meisten Leute machen würden, bei heiklen themen wenn man denkt dass die Person nicht ehrlich antworten würde
- Stimulusqualität - Extremität, Suggestion Wertung - und Aktualität
Kriterien der Itemformulierung - Sprachliche Verständlichkeit
Man sollte mit einmaligem Lesen die Frage erfassen können
- zu komplizierte oder umständliche Satzkonstruktionen vermeiden
- gezielt nach dem Fragen was man will ohne gross darum herum reden
- möglichst kurz, aber präzise
- Verneinungen, erst recht doppelte, vermeiden
- Intensitäts- und Häufigkeitsangaben vermeiden („Sporttreiben erhöht manchmal den Selbstwert“)
- man weiss nicht was die Antwort bedeutet -- nie? immer?
- Wichtiges hervorheben - fett drucken, Unterstreichen etc
- Fachausdrücke vermeiden
Kriterien der Itemformulierung - Schwierigkeit der Items
Um Unterschiede in Ausprägungen eines Merkmals messen zu können, ist Varianz im Antwortverhalten notwendig.
- extrem formulierte Items sind ungeeignet („Frauen, die abtreiben, sollten zu langen Gefängnisstrafen verurteilt werden“)
- hier wird man kaum Varianz im Antwortverhalten finden >> die meisten werden sie gleich beantworten
- Besser -- "Um gegen Abtreibungen vorzugehen, können auch strafrechtliche Massnahmen angemessen sein"
- Items, die praktisch von allen Vpn bejaht oder verneint werden, sind ungeeignet („Meine Gesundheit ist mir wichtig“)
- Ausnahme - Selten auftretende Merkmale
- um diese zu finden, braucht es extreme Fragen
- zB Ich würde mich Umbringen wenn ich es könnte
Kriterien der Itemformulierung - Eindeutigkeit des Inhalts
- zu allgemeine oder vage Aussagen unterlassen („Ich habe verschiedene Ziele im Leben“)
- besser - Ich habe beruflich klare Ziele
- mehrdeutige Begriffe vermeiden („Ich bin in Gesprächen angriffslustig“)
- Besser - Kontext eingrenzen - In Seminaren bin ich debatierfreudig
- nur eine Aussage pro Item (keine „double barrel“, „Ich habe Ziele im Leben und arbeite auf sie hin“)
- Man weiss nicht ob Person auf das erste oder das zweite Antwortet
- Zeitpunkt/Zeitspanne eingrenzen (nicht: „In letzter Zeit fühlte ich mich öfters niedergeschlagen“)
- Was heisst in letzter Zeit? - zB Im letzten Monat besser
- Verallgemeinerungen vermeiden („Alle Kinder machen Lärm“)
- Kinder können Lärm machen
Kriterien der Itemformulierung - Eindeutigkeit hinsichtlich des Konstruktes
Es muss eindeutig sein, ob eine Zustimmung zu einem einzelnen Item im Sinne einer höheren oder niedrigeren Ausprägung des im Gesamttest erfaßten Konstruktes zu interpretieren ist.
Wird das Konstruk abgebildet durch die Fragen die ich stelle?
Zusammenstellung des Tests - Reihenfolge von Skalen
- Skalen für ein Konstrukt nicht auseinandernehmen
- Wenn man Selbstwert und Bindungsstil erfassen will, sollte man die Dinge nicht vermischen, sondern die Konstrukte zusammenhalten
- allgemeine vor spezifischen Konstrukten testen, thematisch gruppieren
- „Counterbalancing“ bei Stimmungsfragebögen: Kontext beeinflußt oft das Antwortverhalten
- Reihenfolge der befragten Konstrukten zwischen verschiedenen Gruppen variieren
- Antwortskalen klar bezeichnen
- wenn unterschiedliche Antwortskalen verwendet werden, sollten diese Gruppiert verwendet werden und klar bezeichnet sein
- demographische Daten am Anfang oder Ende erfassen
- besser am Anfang, falls Fragebogen nicht beendet wird
- allgemein, wichtige Dinge eher am Anfang, als am Schluss
Zusammenstellung des Tests - Reihenfolge von Items
- bei Leistungsaufgaben mit leichten Items beginnen
- Um Motivation nicht zu verlieren
- bei psychologischen Untersuchungen mit neutralen Items beginnen
- Konsistenz- und Aktualisierungseffekte vermeiden: ähnliche Items innerhalb einer Skala trennen, Pufferaufgaben, Instruktionen
Zusammenstellung des Tests - Hinweise in Instruktionen
- spontan und wahrheitsgetreu antworten, nichts überspringen
- Antwortmodus erklären
- Anonymität/Vertraulichkeit betonen
Übersetzung von Skalen
- erst versuchen, übersetzte Skala auf deutsch zu finden und prüfen, ob sie psychometrisch überprüft wurde
- wenn keine Übersetzung vorhanden: drei Vorgehensweisen
a) Die Üblichste: übersetzen und anschließend rückübersetzen (durch verschiedene Übersetzer), Nichtübereinstimmungen korrigieren
b) Zusammenfügen („Merging“): zwei Übersetzer übersetzen gleichzeitig, Resultate werden verglichen
c) in Gruppe übersetzen, anschließend mit Fachexperten diskutieren und sich einigen
Übersetzung muss psychometrisch geprüft und an neuer Stichprobe getestet werden
Itemanalyse im Rahmen der Klassischen Testtheorie: Evaluation der Items
- Evaluation eines Tests erst auf Itemebene, dann auf Testebene
- Itemanalyse: Selektion der Testitems mittels Evaluation auf deskriptiv-statistischer Ebene
- - psychometrische Item-Eigenschaften als Kennwerte bestimmen und anhand vorgegebener Qualitätsstandards beurteilen
- - Ziel: Items mit den besten psychometrischen Eigenschaften auswählen
- Itemanalyse umfaßt:
- - Schwierigkeitsindex
- - Itemvarianz
- - Trennschärfe
- - Homogenität
- - Itemselektion und Testwertrevision - Analyse der Testwertverteilung
Itemanalyse im Rahmen der Klassischen Testtheorie: Evaluation der Items
Schwierigkeitsindex
- Definition: Der Schwierigkeitsindex einer Aufgabe ist definiert durch die prozentuale Häufigkeit, mit der sie von einer repräsentativen Stichprobe von Pbn richtig bzw. in Schlüsselrichtung beantwortet wird (Werte Schwierigkeitsindex: 0 - 100).
- - eigentlich handelt es sich um einen „Leichtigkeitsindex“, da ein hoher Wert bedeutet, daß ein Item leicht ist (es viele Pbn gelöst haben)
Differentialpsychologischer Ansatz
- ein Test soll Pbn mit hoher Merkmalsausprägung von Pbn mit niedriger Merkmalsausprägung trennen
- Items, die von allen Pbn gelöst (bzw. zugestimmt) werden oder von niemandem gelöst werden, tragen zu dieser Anforderung nichts bei
- daraus folgt: Items von mittlerer Schwierigkeit kreieren (optimal: Pi = 50)
Schwierigkeitsindex - Leistungtests - Speedtests
Speedtest - relativ viele, einfache Items -- wie viele Items kann Person in der vorgegebenenen Zeit beantworten?
- mögliche Antwortformate - richtig falsch, dichotom oder Mehrfachauswahl
- Problem der fehlenden Antworten
- manchmal fehlt die Zeit
- maximal mögliche Punktzahl sollte nicht im Nenner stehen, da sonst die Schwierigkeit überschätzt wird (der Schwierigkeitsindex unterschätzt wird (!))
- Items sind ja relativ einfach, die Person ist einfach nicht so weit gekommen
- Inangriffnahme-Korrektur:
- Anstelle Totale Mögliche Anzahl im Nenner, nur die n-bearbeiteten Aufgaben
- dh nur die am Ende unbeantworteten Frage, die die in der Mitte ausgelassen wurden werden gezählt
Schwierigkeitsindex bei Niveau-(Power-)Tests
- keine Zeitbegrenzung wie bei Speedtests >> man geht davon aus dass alle Bearbeitet werden können, aber es nicht alle lösen können
- man geht davon aus, daß alle Items bearbeitet werden können, daher gibt es keine nU (unbearbeiteten)
- aber Problem des Ratens!
Ratekorrektur
- Schwierigkeitsindex muß wegen des Ratens korrigiert werden, damit die Schwierigkeit nicht unterschätzt wird (bzw. der Schwierigkeitsindex überschätzt wird)
- Index wird kleiner, dh sie werden schwieriger eingeschätzt
- im Zähler zieht man von der Zahl richtiger Antworten die richtigen ab, die durch zufälliges Raten zustande gekommen sind (man nimmt an, daß alle falschen Antworten durch Raten zustandegekommen sind)
- je mehr falsche Antworten, desto größer die Ratekorrektur
- je größer die Anzahl Antwortalternativen, desto geringer die Ratekorrektur (Ratewahrscheinlichkeit geringer)
Wenn viele Leute das Item falsch hatten, geht man davon aus, dass viele der Richtigen Antworten auch durch Raten verursacht wurden
nicht nötig bei Persönlichkeitstests oder MC-Fragen mit mehr als vier Antwortmöglichkeiten
- bei mehr als 4 Antwortmöglichkeiten ist die Ratewahrscheinlichkeit zu klein
Schwierigkeitsindex bei Persönlichkeitstests
Schwierigkeitsindex bei Persönlichkeitstests
keine Richtig-falsch-Antworten, daher wird der Schwierigkeitsindex als symptomatische Antwort für eine hohe Merkmalsausprägung betrachtet
- Festlegung, welche der Antwortstufen als symptomatisch und welche als unsymptomatisch für eine hohe Merkmalsausprägung anzusehen sind
Vorgehensweise
1. revers kodierte Items umpolen (Balkendiagramme vertikal spiegeln)
2. S-Index berechnen: arithmetischer Mittelwert der Itemantworten von n Probanden auf einer k-stufigen Antwortskala
- Antwortskala 1-7 muß für Berechnung des Schwierigkeitsindex‘ mit null beginnen (0-6), weil Schwierigkeitsindex immer Werte 0 - 100
- Pi = (erreichte Punkte / erreichbare Punkte) * 100
Erwünschter Schwierigkeitsindex
allg. grösste Differenzierungsfähigkeit bei mittlerer Schwierigkeit >> 50
oft Items mit unterschiedlichen Schwierigkeiten gewünscht, ermöglicht Diskrimination auf verschiedenen Stufen (5 ≤ Pi ≤ 95)
- Spezialfall: Erfassung von Probanden mit extremer Merkmalsausprägung
- zB Sonderschüler, Klinische Patienten
Einbezug weiterer Kriterien
- in Zusammenhang mit Itemvarianz und Trennschärfe beantworten
- Trennschärfe sagt uns inwiefern die Löser die gleichen Items über den Test beantworten >> Wer sind die Löser?
- >> Grosse Merkmalsstreuungen begünstigen hohe Korrelationen, also günstige Voraussetzung füür Trennschärfe und Homogenität der Skala
- bei mehreren Items mit gleicher Schwierigkeit dasjenige mit höherer Trennschärfe bevorzugen (hinreichende Trennschärfe ist wichtig)
- Aber: auch auf menschliche Faktoren achten
- manchmal braucht man auch einfache Items in einem Test, zB Eisbrecher Items
Zudem:
- bei Speedtests: grosse Anzahl leichter Items
- bei Powertests: manchmal Anordnung nach ansteigender Schwierigkeit
Trennschärfe
Drückt inhaltlich aus, wie gut ein Item das gleiche Merkmal misst, wie der Rest des Tests
Definition: Die Trennschärfe gibt an, wie stark die Differenzierung des jeweiligen Items mit der Differenzierung der Gesamtskala übereinstimmt.
- Skala und Item/Aufgabe messen dasselbe
- Trennschärfe gibt an, wie gut ein Item den Gesamttest, der aus den restlichen Items gebildet wird, widerspiegelt
- Index, inwiefern die Löser über die Items hinweg konstant bleiben
- Aussage darüber, wie gut das gesamte Testergebnis aufgrund dieses einzelnen Items vorhersagbar ist
- Statistisch: korrelativer Zusammenhang zwischen Item- und Test-Score
Testschärfe -- Berechnung
- Korrelation zwischen Item- und Test-Score: rit
- wenn Item und Skala intervallskaliert: Produkt-Moment-Korrelation
- wenn Item dichotom und Skala intervallskaliert: Punktbiseriale Korrelation
Korrelation
— beschreibt den Zusammenhang zwischen zwei (intervallskalierten) Variablen (Items)
- Korrelation ist die standardisierte Kovarianz (Korrelation geteilt durch das Produkt beider Standardabweichungen):
- Stärke wie auch Richtung kann beschrieben werden
- von -1 bis +1
- Kovarianz beschreibt das Ausmass der gemeinsamen Variation zwischen zwei Variablen (Items)
- lineare Beziehung gemessen
- Kann ins minus bis plus unendliche gehen
Trennschärfe für intervallskalierte Items
+ Problem der Autokorrelation
- Produkt-Moment-Korrelation
- Voraussetzung:
- intervallskalierte Item-Scores
- Skala intervallskaliert
- lineare Beziehung zwischen Item-Score und Test-Score
Problem der Autokorrelation
- bei der Berechnung der Trennschärfe (Korrelation zwischen Item- und Test-Score) geht der Wert des betrachteten Items zweimal in die Berechnung ein, dadurch wird die Trennschärfe künstlich erhöht (Item korreliert mit sich selbst zu 1.00)
- Die Item Score ist im Test-Score enthalten
- Deshalb —> Teil-Ganz-Korrektur (Part-whole-Korrektur): der Wert des betrachteten Items wird vom Test-Score abgezogen, man erhält den korrigierten Test-Score
- Einfluss der Korrektur ist umso geringer, je grösser die Anzahl Items und je homogener (je ähnlicher die Items, dh alle das gleiche messen, dh hoch korrelieren) die Skala
- Mann muss für jedes Item einzeln gemacht werden
- Durch die Korrektur wird der Wert für die Trennschärfe tiefer, da man ohne Korrektur die Trennschärfe überschätzt
Trennschärfe für dichotome Items
punkt-biseriale Korrelation
- Hier wird Differenz berechnet zwischen leuten die eine Antwort mit 1 und mit 0 beantwortet haben
Überlegungen zur Trennschärfe
Beschriftung in SPSS-Tabellen: Corrected Item-Total Correlation
- gute Trennschärfe: rit > .50, niedrige Trennschärfe: rit < .30
- je höher die Trennschärfe, desto mehr wird das Item von Probanden mit hohen Testwerten gelöst bzw. symptomatisch beantwortet
- negative Trennschärfe: Item wurde von Probanden mit niedrigen Testwerten gelöst bzw. symptomatisch beantwortet >> Bei einem Leistungstest ist das schlecht, bei einem Persönlichkeitstest muss man dass Item wohl umpolen
- wenn Trennschärfe > 0: Item mißt das gleiche wie der Rest des Tests
- wenn Trennschärfe = 0: Item mißt etwas völlig anderes
- wenn Trennschärfe < 0: Item mißt genau das Gegenteil
- die korrigerte Trennschärfe ist stets kleiner als die unkorrigerte Trennschärfe