..


Kartei Details

Karten 120
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 14.03.2018 / 08.08.2018
Weblink
https://card2brain.ch/box/20180314_diagnostik_i
Einbinden
<iframe src="https://card2brain.ch/box/20180314_diagnostik_i/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Aufgaben mit gebundenem Antwortformat – Ordnungsaufgaben

Zuordnungsaufgaben

  • Zeichen oder Inhalte werden anderen Zeichen oder Inhalten zugeordnet
    • Aufgabe — Bildsymbole müssen den entsprechenden Zeichen zugeordnet werden

>> Fähigkeit Regeln zu verstehen 

 

Aufgaben mit gebundenem Antwortformat – Ordnungsaufgaben

Umordnungsaufgaben

  • Bilder oder Inhalte in logische Reihenfolge bringen
    • Abfolgen zu erkennen >> mit Bilder Geschichte erzählen 

Vor- und Nachteile von Ordnungsaufgaben

+ einfach, ökonomisch und objektiv
+ zufällige Beantwortung weniger problematisch als bei Auswahlaufgabe
+ sprachliche Fertigkeiten werden nicht mitgemessen
+ eignen sich auch zur Überprüfung von Wissen (v. a. bei Zuordnung), Schlussfolgerungen sowie Ursache-Wirkungs-Zusammenhängen (v. a. bei Umordnung)
+ Abstratktionsfähigkeit kann getestet werden

- nur Rekognition/Wiedererkennen, keine Reproduktion nötig
- nach jeder richtigen Antwort nehmen die Freiheitsgrade ab — am Schluss hat man nur noch eine Auswahlmöglichkeit
- Materialverbrauch bei Umordnungsaufgaben hoch

Aufgaben mit gebundenem Antwortformat – Auswahlaufgaben

Dichotome Aufgaben

  • Richtig-falsch-Aufgaben (auch: trifft zu/trifft nicht zu) — nur zwei Antwortalternativen
    • „Ich gehe Abends gerne aus“
  • bei Leistungstests auch zwei Rechenaufgaben nebeneinander (!)
    • dort muss man schnell entscheiden ob die Rechnung stimmt oder nicht 
  • unechte Dichotomie: „Ich gehe abends gerne aus.“ Stimmt – Stimmt nicht (nicht „richtig/falsch“)
    • nur die Rechnung ist eine echte Dichotomie, bei den "Abends gerne aus" Fragen will man unter Umständen etwas dazwischen ankreuzen >> Man verliert an Information 
       

Vor- und Nachteile von dichotomen Aufgaben

+ ökonomisch —> kurze Bearbeitungs-, Lösungs- und Auswertungszeit
+ Testinstruktion i. d. R. leicht verständlich

- Ja-Nein-Items müssen so formuliert werden, daß sie eindeutig beantwortet werden können

- 50 % Zufallslösungen —> Ratewahrscheinlichkeit hoch
- kaum differenzierte Informationen
>> Akquieszenz (Zustimmungstendenz, Ja-sage-Tendenz) >> Menschen stimmen so eher zu als wenn sie auf einer Skala differenzierter Antworten können 

Mehrfachwahlaufgaben (Multiple Choice)

+ Vor und Nachteile 

 

  • Achtung, nicht bei Persönlichkeitstests, auch wenn es mehrere Antwortmöglichkeiten gibt
  • Bei Leistungstests die richtige, bei Persönlichkeit die zutreffende

Vor- und Nachteile von Mehrfachwahlaufgaben

+ Durchführung und Auswertung ökonomisch und objektiv
+ mit steigender Anzahl Antwortalternativen ist eine zufällige Beantwortung weniger problematisch

- geeignete Antwortalternativen zu finden ist evtl. schwierig, da alle falschen Antworten gleich wahrscheinlich gewählt werden sollten
- Antworten können Hinweise auf richtige Lösung enthalten
- nur Rekognition/Wiedererkennen, keine Reproduktion nötig
- nicht für alle Konstrukte sinnvoll

Wahl geeigneter Distraktoren 

 

Alternativmöglichkeiten in der Weise konstruierten, dass sie zwar richtig aussehen, aber inhaltlich falsch sind 

>> nur wenn ähnlich, wird der Auswahlprozess ohne Kenntnisse schwierig 

  • sollten plausibel sein
  • alle Alternativen ähnliche Länge und grammatikalische Struktur
  • Antwort soll mit Aufgabenstamm/Stimulusteil sprachlich übereinstimmen
  • Alternativen möglichst kurz halten
  • nicht mehrere Distraktoren mit gleichem Inhalt, sonst zu leicht ausschliessbar
  • Position der korrekten Antwort soll variieren
  • „all of the above“, „none of the above“ (alle/keine sind richtig) möglichst sparsam einsetzen

Disjunktheit der Antwortmöglichkeiten 

 

disjunkt: Antwortalternativen sollten sich gegenseitig ausschließen („Kreuzen Sie Ihren aktuellen Zivilstand an“ — verheiratet, ledig, getrennt, geschieden)

nicht disjunkt: Antwortalternativen schließen sich nicht gegenseitig aus („Kreuzen Sie Ihren Partnersituation an“ — ledig, offene Partnerschaft, monogame Partnerschaf, verwitwet, mit Partner lebend)

Exhaustivität der Antwortmöglichkeiten 

  • Vollständigkeit der Antwortalternativen >> Kann man das was zutrifft ankreuzen? 
  • wichtig bei Persönlichkeitstests (zur Not Feld „andere: _________“) >> da man möglicherweise nicht alle auflisten kann 

Spezialfall: Forced Choice — Antwort muss nicht 100% zutreffen, man soll einfach die Auswählen, die am meisten zutrifft — extra keine Exhaustivität

Aufgaben mit gebundenem Antwortformat – Beurteilungsaufgaben

 

Persönlichkeitstests — Ausprägung des Merkmals

  • Zustimmungs- oder Ablehnungsgrad zu einer im Aufgabenstamm vorgelegten Aussage
  • Antwortkategorien sind item-unspezifisch formuliert, sie gelten einheitlich für alle Items des Tests

 

diskret gestufte Ratingskala 

  • mehr als zwei abgestufte Antwortkategorien, die eine Rangordnung darstellen sollen
    • Bsp.: 1 – fast nie / 2 – manchmal / 3 – oft / 4 – immer

kontinuierliche Analogskala

  • keine Abstufungen, differenziertere Antworten, Auswertung mit Messskala („nie ----------------------X----- immer“) —-> Kreuz setzten wo es zutrifft
    • nutzt man wenn man weiss, dass die Person sehr differenziert beurteilen kann (besonders wenn es darum geht einen Start und Endwert herauszufinden -- man kann auch kleine unterschiede sehen, nicht nur einen Unterschied zwischen zwei Zahlen)

Überlegungen zu Ratingskalen bei Beurteilungsaufgaben

Anzahl Skalenstufen (Differenziertheit)

Wie differenziert soll das Konstrukt behandelt werden?

  • i. d. R. werden 3 bis 7 Stufen verwendet, je nach dem vermuteten Grad der kognitiven Differenziertheit des zu testenden Konstruktes
    • bei mehr als 7 Stufen gibt es nicht mehr Informationsgewinn >> die meisten Leute können dass nicht mehr bestimmen, nur bei der Stimmung werden manchmel mehr verwendet 
    • Bei vielen Stufen tendieren Personen dazu extreme Antworten zu wählen >> Überforderung 
  • Spezialfall: visuelle Stufen, z. B. Smileys :-(  :-| :-)  —> Gesichter als Antwortmöglichkeit (diskret gestuft)

Überlegungen zu Ratingskalen bei Beurteilungsaufgaben

bipolar vs. unipolar

  • unipolares Item geht von einem Nullpunkt aus und nur in eine Richtung
    • Bsp.: „Wie oft fahren Sie Auto?“ nie – selten – manchmal – oft – sehr oft

 

  • bipolares Item verläuft von einem negativen Pol über einen Nullpunkt (Indifferenz, z. B. „weder noch“) bis zu einem positiven Pol
    • Bsp.: „Ich fühle mich oft angespannt und nervös“
      • starke Ablehnung – Ablehnung – weder Ablehnung noch Zustimmung – Zustimmung – starke Zustimmung

Ratingskalen bei Beurteilungsaufgaben

Bezeichnung der Skalenstufen („labels“)

Bezeichnung der Skalen (numerisch, verbal, optisch oder gemischt) –“labels“ >> was eignet sich am besten

Verbale Etikettierungen haben den Vorteil, dass die Bedeutung der Antwortstufen durch eine sprachliche Umschreibung vereinheitlicht wird. Aber

  • Interpretation von solchen Ettikettierungen muss einem bewusst sein, nich jeder interpretiert ein Begriff gleich >> kann auch gewollt sein!
  •  
  • Eine Benennung mit Zahlen soll oftmals bewirken, dass die Ratingskala wie eine Intervallskala benutzt wird.
  • Bei einer Kombination aus beiden erhofft man sich die Vorteile von beiden Varianten.
    • Wie sehr vertrauen sie ihrem Partner?   1 Gar nicht >> 5 sehr stark 
    • Wichtig dass man gleiche Abstände zwischen den Punkten wählt wenn man alle Zahlen beschriftet! Ansonsten einfach die Pole und die Mitte beschriften 

Ratingskalen bei Beurteilungsaufgaben

Neutrale Mittelkategorie

  • nicht immer eindeutig interpretierbar
  • Unentschiedenheit; versteht Item nicht; hält Item für unpassend; verweigert Antwort; „typische“ Antwort; Unmotiviertheit/Gleichgültigkeit

Wenn ich menen Partner unterstütze oder ihm helfe, tue ich dies meist weil ich später in irgendeiner Form eine Gegenleistung erwarte >> Stimme gar nicht zu >> stimme mässig zu >> stimme völlig zu 

  • andere Gründe haben die Mitte anzukreuzen >> Unentschiedenheit >> schwierig zu interpretieren 
  • bei bipolaren Items weiss man dass die reliabilität erhöht wird wenn eine Mitte vorhanden ist >> oft hofft man eine mittlere Ausprägung zu erhalten 

 

Ratingskalen bei Beurteilungsaufgaben

Weiss-nicht Kategorie

Essen Sie gerne japanisches Essen?
ja > nein > ich weiss nicht

  • Person könnte meinen >> Sie hat noch nie japanisch gegessen oder weder gerne noch nicht gerne!
  • Weiss nicht Kategorie wird nie in Auswertung eingeschlossen! >> Datenverlust
    • besser eine Weitere "Dazwischen" Kategorie + Möglichkeit zu sagen, dass man es nicht kennt >> Mittelkategorie + weiss nicht 
  • Wichtig eine weiss nicht Kategorie wenn es inhaltlich Sinn macht 
    • Besser aber wenn es Fragen sind, bei der Alle eine Mögliche Antwort haben

>> Bei jedem Fragebogen überlegen was inhaltlich Sinn macht!

 

Ratingskalen bei Beurteilungsaufgaben:

Reverse kodierte (invertierte) Items

Items mit einer negativen Valenz, d.h. sie gehen in die umgekehrte Richtung in der Erfassung des Merkmals

  • Tiefer Wert = Hohe Ausprägung in einem Merkmal 

 

Vorteile

  • Man kann schauen ob eine Person Aufmerksam beantwortet >> Wird genau gelesen? Werden nur hohe oder nur tiefe Antworten gegeben? Ist es merkmalskonform?
  • Schwelle wird geändert >> "Ich fühle mich selten einsam und traurig" >> wird anders beantwortet als "Ich fühle mich oft einsam und traurig"  
  • Verringert Ja-Sage-Tendenz 

Nachteile 

  • Personen mögen sie nicht gerne, werden oft als verwirrend angesehen >> Fehlertendenz 
    • das Wort "nicht" wird überlesen 
  • Wichtig dass es genau so extreme "normale" items hat, wie umgepolte 
  • genügend, über den Test verteilte umgepolte Items, nicht nur eines! 

Ratingskalen bei Beurteilungsaufgaben:

Intensität vs. Häufigkeitsskalen

Frage ich nach Intensität oder nach Häufigkeit?

Intensität -- subjektive Einschätzungen 

Häufigkeit -- Nach Anzahl fragen >> konkrete Antworten

  • Ich war im letzten Monat oft aufgebracht, weil etwas unerwartetes geschehen ist? >> Nicht - sehr
  • Wie oft waren Sie im letzten Monat aufgebracht, weil etwas unerwartetes geschehen ist? >> nie - immer

Intensitätsangebe hier ist nicht direkt interpretierbar! 

Aber auch die Häufigkeitsangeben sind teilweise schwer interpretierbar, da man nicht genau weiss wie oft "manchmal" heisst

  • Wenn man genaue Angaben wie 1-2x pro Woche macht, kann man es genauer Interpretieren 

Vor- und Nachteile Beurteilungsaufgaben mit mehrstufige Ratingskalen

Vorteile:
— ökonomisch bei Durchführung und Auswertung — kürzere Bearbeitungszeit
— (relativ) differenzierte Informationen

Nachteile:

— Konstruktion kann aufwendig sein

— subjektiv unterschiedliche Auffassung der Abstufungen (eigentlich Ordinalskalierung)

  • mittlere oder neutrale Antwortkategorie kann problematisch sein
  • Verfälschungen (z.B. Antworttendenzen)

Allgemeine Probleme bei Itembeantwortung

Verfälschungen die Unabhängig vom Konstrukt sind 

  • Systematische Fehler die Validität verringern 
    • Beantwortung der Intems die nichts mit dem Merkmal zu tun haben die Interpretation verfälschen 

 

1. Absichtliches Fälschen >> Simulation 

  • schwierig zu Umgehen 
  • Wenn die Person nicht weiss, was gemessen wird kann mann Fälschen verringern
  • Annonymität hilft Fälschen zu verringern 

>>Optimizing- Satisficing- Modell

  • Optimizing: positiver Grund als Motivation für Teilnahme (Bsp. Selbstbild, Altruismus oder Belohnung) >> zwar gründliche Bearbeitung der Items, aber Verzerrungen
  • Satisficing: zur Teilnahme verpflichtet / beiläufige Teilnahme >> oberflächliche/arbiträre Beantwortung der Items
    • Motivation steigern, klar machen, dass es wichtig ist.
    • Leute möglichst nicht zwingen 

 

2. Soziale Erwünschtheit

  • Art der Optimizing Problems 
  • Selbst- vs. Fremdtäuschung
  • Verringerung durch Aufklärung des Untersuchungsgegenstands, Anonymität, obj. Persönlichkeitstests oder Kontrollskala
    • besser schriftlich als mündlich >> Abstand zwischen Proband und Testleiter verringert soziale Erwünschtheit 
    • Kontrollitems "Manchmal lüge ich wenn ich muss" / "Zu viel Wechselgeld nicht zurückgeben" >> Wenn solche Items alle mit nein beantworten, kann das heissen, dass die Person nach sozialer erwünschtheit beantwortet 

 

3. Antworttendenzen

  • die von der zu messenden Personeneigenschaft unabhängige Neigung einer Person die Ratingskale in einer bestimmten Art und weise zu gebrauchen 
    • Tendenz zur Mitte 
    • Akquieszenz 

Kriterien der Itemformulierung - Kriterien der Itemformulierung

 

- direkt/indirekt

  • Merkmal direkt ansprechen oder nach einem Verhaltensindikator fragen
  • Bsp.: „Halten Sie sich für rücksichtsvoll?“ (direkt)
  • Indikator (indirekte Frage nach konkreter Situation) meist besser: „Halten Sie an, wenn jemand am Fußgängerüberweg steht?“
    • Indikatoren geben meist bessere Antworten, man muss sie aber gut auswählen 

- hypothetischer/tatsächlicher Sachverhalt

  • Bsp.: „Würden Sie helfen, wenn Sie beobachten, wie jemand belästigt wird?“
  • eher Fehleinschätzung bei hypothetischem Sachverhalt >> Soziale Erwünschtheit 
  • besser nach konkretem Sachverhalt fragen: „Als Sie das letzte Mal beobachtet haben...“

- konkret/abstrakt

  • Bsp.: „Sammeln Sie gerne Briefmarken?“
  • konkrete Fragen sind situationsabhängig, abstrakte Fragen führen aber zu Fehleinschätzungen

- personalisiert/depersonalisiert

  • Bsp.: „Sollten möglichst viele gegen ein Ausländergesetz demonstrieren?“ (depersonalisiert)
  • zuverlässigere Information bei personalisierten Fragen: „Würden Sie gegen ein...“
    • danach fragen was die meisten Leute machen würden, bei heiklen themen wenn man denkt dass die Person nicht ehrlich antworten würde 

- Stimulusqualität - Extremität, Suggestion Wertung - und Aktualität 

 

 

Kriterien der Itemformulierung - Sprachliche Verständlichkeit

Man sollte mit einmaligem Lesen die Frage erfassen können 

- zu komplizierte oder umständliche Satzkonstruktionen vermeiden

  • gezielt nach dem Fragen was man will ohne gross darum herum reden 

- möglichst kurz, aber präzise
- Verneinungen, erst recht doppelte, vermeiden

- Intensitäts- und Häufigkeitsangaben vermeiden („Sporttreiben erhöht manchmal den Selbstwert“)

  • man weiss nicht was die Antwort bedeutet -- nie? immer?

- Wichtiges hervorheben - fett drucken, Unterstreichen etc 
- Fachausdrücke vermeiden

Kriterien der Itemformulierung - Schwierigkeit der Items

Um Unterschiede in Ausprägungen eines Merkmals messen zu können, ist Varianz im Antwortverhalten notwendig.


- extrem formulierte Items sind ungeeignet („Frauen, die abtreiben, sollten zu langen Gefängnisstrafen verurteilt werden“)

  • hier wird man kaum Varianz im Antwortverhalten finden >> die meisten werden sie gleich beantworten 
  • Besser -- "Um gegen Abtreibungen vorzugehen, können auch strafrechtliche Massnahmen angemessen sein"

- Items, die praktisch von allen Vpn bejaht oder verneint werden, sind ungeeignet („Meine Gesundheit ist mir wichtig“)

- Ausnahme - Selten auftretende Merkmale 

  • um diese zu finden, braucht es extreme Fragen 
  • zB Ich würde mich Umbringen wenn ich es könnte 

Kriterien der Itemformulierung - Eindeutigkeit des Inhalts

- zu allgemeine oder vage Aussagen unterlassen („Ich habe verschiedene Ziele im Leben“)

  • besser - Ich habe beruflich klare Ziele 

- mehrdeutige Begriffe vermeiden („Ich bin in Gesprächen angriffslustig“)

  • Besser - Kontext eingrenzen - In Seminaren bin ich debatierfreudig

- nur eine Aussage pro Item (keine „double barrel“, „Ich habe Ziele im Leben und arbeite auf sie hin“)

  • Man weiss nicht ob Person auf das erste oder das zweite Antwortet 

- Zeitpunkt/Zeitspanne eingrenzen (nicht: „In letzter Zeit fühlte ich mich öfters niedergeschlagen“)

  • Was heisst in letzter Zeit? - zB Im letzten Monat besser 

- Verallgemeinerungen vermeiden („Alle Kinder machen Lärm“)

  • Kinder können Lärm machen 

Kriterien der Itemformulierung - Eindeutigkeit hinsichtlich des Konstruktes

Es muss eindeutig sein, ob eine Zustimmung zu einem einzelnen Item im Sinne einer höheren oder niedrigeren Ausprägung des im Gesamttest erfaßten Konstruktes zu interpretieren ist.

Wird das Konstruk abgebildet durch die Fragen die ich stelle?

Zusammenstellung des Tests - Reihenfolge von Skalen

- Skalen für ein Konstrukt nicht auseinandernehmen

  • Wenn man Selbstwert und Bindungsstil erfassen will, sollte man die Dinge nicht vermischen, sondern die Konstrukte zusammenhalten 

- allgemeine vor spezifischen Konstrukten testen, thematisch gruppieren

- „Counterbalancing“ bei Stimmungsfragebögen: Kontext beeinflußt oft das Antwortverhalten

  • Reihenfolge der befragten Konstrukten zwischen verschiedenen Gruppen variieren 

- Antwortskalen klar bezeichnen

  • wenn unterschiedliche Antwortskalen verwendet werden, sollten diese Gruppiert verwendet werden und klar bezeichnet sein 

- demographische Daten am Anfang oder Ende erfassen

  • besser am Anfang, falls Fragebogen nicht beendet wird
  • allgemein, wichtige Dinge eher am Anfang, als am Schluss 

Zusammenstellung des Tests - Reihenfolge von Items

- bei Leistungsaufgaben mit leichten Items beginnen

  • Um Motivation nicht zu verlieren 

- bei psychologischen Untersuchungen mit neutralen Items beginnen

- Konsistenz- und Aktualisierungseffekte vermeiden: ähnliche Items innerhalb einer Skala trennen, Pufferaufgaben, Instruktionen

 

Zusammenstellung des Tests - Hinweise in Instruktionen

- spontan und wahrheitsgetreu antworten, nichts überspringen

- Antwortmodus erklären

- Anonymität/Vertraulichkeit betonen

Übersetzung von Skalen

- erst versuchen, übersetzte Skala auf deutsch zu finden und prüfen, ob sie psychometrisch überprüft wurde
- wenn keine Übersetzung vorhanden: drei Vorgehensweisen

a) Die Üblichste: übersetzen und anschließend rückübersetzen (durch verschiedene Übersetzer), Nichtübereinstimmungen korrigieren

b) Zusammenfügen („Merging“): zwei Übersetzer übersetzen gleichzeitig, Resultate werden verglichen

c) in Gruppe übersetzen, anschließend mit Fachexperten diskutieren und sich einigen

Übersetzung muss psychometrisch geprüft und an neuer Stichprobe getestet werden

Itemanalyse im Rahmen der Klassischen Testtheorie: Evaluation der Items

- Evaluation eines Tests erst auf Itemebene, dann auf Testebene
- Itemanalyse: Selektion der Testitems mittels Evaluation auf deskriptiv-statistischer Ebene

  • - psychometrische Item-Eigenschaften als Kennwerte bestimmen und anhand vorgegebener Qualitätsstandards beurteilen
  • - Ziel: Items mit den besten psychometrischen Eigenschaften auswählen

- Itemanalyse umfaßt:

  • - Schwierigkeitsindex
  • - Itemvarianz
  • - Trennschärfe
  • - Homogenität
  • - Itemselektion und Testwertrevision - Analyse der Testwertverteilung

Itemanalyse im Rahmen der Klassischen Testtheorie: Evaluation der Items

Schwierigkeitsindex

- Definition: Der Schwierigkeitsindex einer Aufgabe ist definiert durch die prozentuale Häufigkeit, mit der sie von einer repräsentativen Stichprobe von Pbn richtig bzw. in Schlüsselrichtung beantwortet wird (Werte Schwierigkeitsindex: 0 - 100).

  • - eigentlich handelt es sich um einen „Leichtigkeitsindex“, da ein hoher Wert bedeutet, daß ein Item leicht ist (es viele Pbn gelöst haben)

Differentialpsychologischer Ansatz
- ein Test soll Pbn mit hoher Merkmalsausprägung von Pbn mit niedriger Merkmalsausprägung trennen
- Items, die von allen Pbn gelöst (bzw. zugestimmt) werden oder von niemandem gelöst werden, tragen zu dieser Anforderung nichts bei
- daraus folgt: Items von mittlerer Schwierigkeit kreieren (optimal: Pi = 50)

 

 

Schwierigkeitsindex - Leistungtests -  Speedtests

Speedtest - relativ viele, einfache Items -- wie viele Items kann Person in der vorgegebenenen Zeit beantworten?

  • mögliche Antwortformate - richtig falsch, dichotom oder Mehrfachauswahl

 

- Problem der fehlenden Antworten

  • manchmal fehlt die Zeit

- maximal mögliche Punktzahl sollte nicht im Nenner stehen, da sonst die Schwierigkeit überschätzt wird (der Schwierigkeitsindex unterschätzt wird (!))

  • Items sind ja relativ einfach, die Person ist einfach nicht so weit gekommen 

- Inangriffnahme-Korrektur:

  • Anstelle Totale Mögliche Anzahl im Nenner, nur die n-bearbeiteten Aufgaben 
    • dh nur die am Ende unbeantworteten Frage, die die in der Mitte ausgelassen wurden werden gezählt

Schwierigkeitsindex bei Niveau-(Power-)Tests

 

- keine Zeitbegrenzung wie bei Speedtests >> man geht davon aus dass alle Bearbeitet werden können, aber es nicht alle lösen können 

  • man geht davon aus, daß alle Items bearbeitet werden können, daher gibt es keine nU (unbearbeiteten)
  • aber Problem des Ratens!

Ratekorrektur

  • Schwierigkeitsindex muß wegen des Ratens korrigiert werden, damit die Schwierigkeit nicht unterschätzt wird (bzw. der Schwierigkeitsindex überschätzt wird)
    • Index wird kleiner, dh sie werden schwieriger eingeschätzt 
  • im Zähler zieht man von der Zahl richtiger Antworten die richtigen ab, die durch zufälliges Raten zustande gekommen sind (man nimmt an, daß alle falschen Antworten durch Raten zustandegekommen sind)
  • je mehr falsche Antworten, desto größer die Ratekorrektur
  • je größer die Anzahl Antwortalternativen, desto geringer die Ratekorrektur (Ratewahrscheinlichkeit geringer)

Wenn viele Leute das Item falsch hatten, geht man davon aus, dass viele der Richtigen Antworten auch durch Raten verursacht wurden

nicht nötig bei Persönlichkeitstests oder MC-Fragen mit mehr als vier Antwortmöglichkeiten

  • bei mehr als 4 Antwortmöglichkeiten ist die Ratewahrscheinlichkeit zu klein

Schwierigkeitsindex bei Persönlichkeitstests

 

Schwierigkeitsindex bei Persönlichkeitstests

keine Richtig-falsch-Antworten, daher wird der Schwierigkeitsindex als symptomatische Antwort für eine hohe Merkmalsausprägung betrachtet

  • Festlegung, welche der Antwortstufen als symptomatisch und welche als unsymptomatisch für eine hohe Merkmalsausprägung anzusehen sind

 

Vorgehensweise

1. revers kodierte Items umpolen (Balkendiagramme vertikal spiegeln)
2. S-Index berechnen: arithmetischer Mittelwert der Itemantworten von n Probanden auf einer k-stufigen Antwortskala

- Antwortskala 1-7 muß für Berechnung des Schwierigkeitsindex‘ mit null beginnen (0-6), weil Schwierigkeitsindex immer Werte 0 - 100
- Pi = (erreichte Punkte / erreichbare Punkte) * 100

Erwünschter Schwierigkeitsindex 

allg. grösste Differenzierungsfähigkeit bei mittlerer Schwierigkeit >> 50

oft Items mit unterschiedlichen Schwierigkeiten gewünscht, ermöglicht Diskrimination auf verschiedenen Stufen (5 ≤ Pi ≤ 95)

  • Spezialfall: Erfassung von Probanden mit extremer Merkmalsausprägung
    • zB Sonderschüler, Klinische Patienten 

Einbezug weiterer Kriterien

  • in Zusammenhang mit Itemvarianz und Trennschärfe beantworten
    • Trennschärfe sagt uns inwiefern die Löser die gleichen Items über den Test beantworten >> Wer sind die Löser?
    • >> Grosse Merkmalsstreuungen begünstigen hohe Korrelationen, also günstige Voraussetzung füür Trennschärfe und Homogenität der Skala 
  • bei mehreren Items mit gleicher Schwierigkeit dasjenige mit höherer Trennschärfe bevorzugen (hinreichende Trennschärfe ist wichtig)
  • Aber: auch auf menschliche Faktoren achten
    • manchmal braucht man auch einfache Items in einem Test, zB Eisbrecher Items

Zudem:

  • bei Speedtests: grosse Anzahl leichter Items
  • bei Powertests: manchmal Anordnung nach ansteigender Schwierigkeit

Trennschärfe 

Drückt inhaltlich aus, wie gut ein Item das gleiche Merkmal misst, wie der Rest des Tests 

Definition: Die Trennschärfe gibt an, wie stark die Differenzierung des jeweiligen Items mit der Differenzierung der Gesamtskala übereinstimmt.

  • Skala und Item/Aufgabe messen dasselbe
  • Trennschärfe gibt an, wie gut ein Item den Gesamttest, der aus den restlichen Items gebildet wird, widerspiegelt
  • Index, inwiefern die Löser über die Items hinweg konstant bleiben
  • Aussage darüber, wie gut das gesamte Testergebnis aufgrund dieses einzelnen Items vorhersagbar ist
  • Statistisch: korrelativer Zusammenhang zwischen Item- und Test-Score

 

Testschärfe -- Berechnung 

  • Korrelation zwischen Item- und Test-Score: rit
  • wenn Item und Skala intervallskaliert: Produkt-Moment-Korrelation
  • wenn Item dichotom und Skala intervallskaliert: Punktbiseriale Korrelation

Korrelation 

— beschreibt den Zusammenhang zwischen zwei (intervallskalierten) Variablen (Items)

  • Korrelation ist die standardisierte Kovarianz (Korrelation geteilt durch das Produkt beider Standardabweichungen):
    • Stärke wie auch Richtung kann beschrieben werden
    • von -1 bis +1
  • Kovarianz beschreibt das Ausmass der gemeinsamen Variation zwischen zwei Variablen (Items)
    • lineare Beziehung gemessen
    • Kann ins minus bis plus unendliche gehen

Trennschärfe für intervallskalierte Items

+ Problem der Autokorrelation

  • Produkt-Moment-Korrelation
  • Voraussetzung:
    • intervallskalierte Item-Scores
    • Skala intervallskaliert
    • lineare Beziehung zwischen Item-Score und Test-Score

Problem der Autokorrelation

  • bei der Berechnung der Trennschärfe (Korrelation zwischen Item- und Test-Score) geht der Wert des betrachteten Items zweimal in die Berechnung ein, dadurch wird die Trennschärfe künstlich erhöht (Item korreliert mit sich selbst zu 1.00)
    • Die Item Score ist im Test-Score enthalten 
  • Deshalb —> Teil-Ganz-Korrektur (Part-whole-Korrektur): der Wert des betrachteten Items wird vom Test-Score abgezogen, man erhält den korrigierten Test-Score
    • Einfluss der Korrektur ist umso geringer, je grösser die Anzahl Items und je homogener (je ähnlicher die Items, dh alle das gleiche messen, dh hoch korrelieren) die Skala 
    • Mann muss für jedes Item einzeln gemacht werden 
    • Durch die Korrektur wird der Wert für die Trennschärfe tiefer, da man ohne Korrektur die Trennschärfe überschätzt 

Trennschärfe für dichotome Items

 

punkt-biseriale Korrelation

  • Hier wird Differenz berechnet zwischen leuten die eine Antwort mit 1 und mit 0 beantwortet haben 

Überlegungen zur Trennschärfe

Beschriftung in SPSS-Tabellen: Corrected Item-Total Correlation

  • gute Trennschärfe: rit > .50, niedrige Trennschärfe: rit < .30
    • je höher die Trennschärfe, desto mehr wird das Item von Probanden mit hohen Testwerten gelöst bzw. symptomatisch beantwortet
  • negative Trennschärfe: Item wurde von Probanden mit niedrigen Testwerten gelöst bzw. symptomatisch beantwortet >> Bei einem Leistungstest ist das schlecht, bei einem Persönlichkeitstest muss man dass Item wohl umpolen 
    • wenn Trennschärfe > 0: Item mißt das gleiche wie der Rest des Tests
    • wenn Trennschärfe = 0: Item mißt etwas völlig anderes
    • wenn Trennschärfe < 0: Item mißt genau das Gegenteil
      • die korrigerte Trennschärfe ist stets kleiner als die unkorrigerte Trennschärfe