Lernkartei Diagnostik I (Seite 1 von 3)

Karten	120
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	14.03.2018 / 08.08.2018
Weblink	https://card2brain.ch/box/20180314_diagnostik_i
Einbinden	<iframe src="https://card2brain.ch/box/20180314_diagnostik_i/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Aufgaben mit gebundenem Antwortformat – Ordnungsaufgaben

Zuordnungsaufgaben

Zeichen oder Inhalte werden anderen Zeichen oder Inhalten zugeordnet
- Aufgabe — Bildsymbole müssen den entsprechenden Zeichen zugeordnet werden

>> Fähigkeit Regeln zu verstehen

Aufgaben mit gebundenem Antwortformat – Ordnungsaufgaben

Umordnungsaufgaben

Bilder oder Inhalte in logische Reihenfolge bringen
- Abfolgen zu erkennen >> mit Bilder Geschichte erzählen

Vor- und Nachteile von Ordnungsaufgaben

+ einfach, ökonomisch und objektiv
+ zufällige Beantwortung weniger problematisch als bei Auswahlaufgabe
+ sprachliche Fertigkeiten werden nicht mitgemessen
+ eignen sich auch zur Überprüfung von Wissen (v. a. bei Zuordnung), Schlussfolgerungen sowie Ursache-Wirkungs-Zusammenhängen (v. a. bei Umordnung)
+ Abstratktionsfähigkeit kann getestet werden

- nur Rekognition/Wiedererkennen, keine Reproduktion nötig
- nach jeder richtigen Antwort nehmen die Freiheitsgrade ab — am Schluss hat man nur noch eine Auswahlmöglichkeit
- Materialverbrauch bei Umordnungsaufgaben hoch

Aufgaben mit gebundenem Antwortformat – Auswahlaufgaben

Dichotome Aufgaben

Richtig-falsch-Aufgaben (auch: trifft zu/trifft nicht zu) — nur zwei Antwortalternativen
- „Ich gehe Abends gerne aus“
bei Leistungstests auch zwei Rechenaufgaben nebeneinander (!)
- dort muss man schnell entscheiden ob die Rechnung stimmt oder nicht
unechte Dichotomie: „Ich gehe abends gerne aus.“ Stimmt – Stimmt nicht (nicht „richtig/falsch“)
- nur die Rechnung ist eine echte Dichotomie, bei den "Abends gerne aus" Fragen will man unter Umständen etwas dazwischen ankreuzen >> Man verliert an Information

Vor- und Nachteile von dichotomen Aufgaben

+ ökonomisch —> kurze Bearbeitungs-, Lösungs- und Auswertungszeit
+ Testinstruktion i. d. R. leicht verständlich

- Ja-Nein-Items müssen so formuliert werden, daß sie eindeutig beantwortet werden können

- 50 % Zufallslösungen —> Ratewahrscheinlichkeit hoch
- kaum differenzierte Informationen
>> Akquieszenz (Zustimmungstendenz, Ja-sage-Tendenz) >> Menschen stimmen so eher zu als wenn sie auf einer Skala differenzierter Antworten können

Mehrfachwahlaufgaben (Multiple Choice)

+ Vor und Nachteile

Achtung, nicht bei Persönlichkeitstests, auch wenn es mehrere Antwortmöglichkeiten gibt
Bei Leistungstests die richtige, bei Persönlichkeit die zutreffende

Vor- und Nachteile von Mehrfachwahlaufgaben

+ Durchführung und Auswertung ökonomisch und objektiv
+ mit steigender Anzahl Antwortalternativen ist eine zufällige Beantwortung weniger problematisch

- geeignete Antwortalternativen zu finden ist evtl. schwierig, da alle falschen Antworten gleich wahrscheinlich gewählt werden sollten
- Antworten können Hinweise auf richtige Lösung enthalten
- nur Rekognition/Wiedererkennen, keine Reproduktion nötig
- nicht für alle Konstrukte sinnvoll

Wahl geeigneter Distraktoren

Alternativmöglichkeiten in der Weise konstruierten, dass sie zwar richtig aussehen, aber inhaltlich falsch sind

>> nur wenn ähnlich, wird der Auswahlprozess ohne Kenntnisse schwierig

sollten plausibel sein
alle Alternativen ähnliche Länge und grammatikalische Struktur
Antwort soll mit Aufgabenstamm/Stimulusteil sprachlich übereinstimmen
Alternativen möglichst kurz halten
nicht mehrere Distraktoren mit gleichem Inhalt, sonst zu leicht ausschliessbar
Position der korrekten Antwort soll variieren
„all of the above“, „none of the above“ (alle/keine sind richtig) möglichst sparsam einsetzen

Disjunktheit der Antwortmöglichkeiten

disjunkt: Antwortalternativen sollten sich gegenseitig ausschließen („Kreuzen Sie Ihren aktuellen Zivilstand an“ — verheiratet, ledig, getrennt, geschieden)

nicht disjunkt: Antwortalternativen schließen sich nicht gegenseitig aus („Kreuzen Sie Ihren Partnersituation an“ — ledig, offene Partnerschaft, monogame Partnerschaf, verwitwet, mit Partner lebend)

Exhaustivität der Antwortmöglichkeiten

Vollständigkeit der Antwortalternativen >> Kann man das was zutrifft ankreuzen?
wichtig bei Persönlichkeitstests (zur Not Feld „andere: _________“) >> da man möglicherweise nicht alle auflisten kann

Spezialfall: Forced Choice — Antwort muss nicht 100% zutreffen, man soll einfach die Auswählen, die am meisten zutrifft — extra keine Exhaustivität

Aufgaben mit gebundenem Antwortformat – Beurteilungsaufgaben

Persönlichkeitstests — Ausprägung des Merkmals

Zustimmungs- oder Ablehnungsgrad zu einer im Aufgabenstamm vorgelegten Aussage
Antwortkategorien sind item-unspezifisch formuliert, sie gelten einheitlich für alle Items des Tests

diskret gestufte Ratingskala

mehr als zwei abgestufte Antwortkategorien, die eine Rangordnung darstellen sollen
- Bsp.: 1 – fast nie / 2 – manchmal / 3 – oft / 4 – immer

kontinuierliche Analogskala

keine Abstufungen, differenziertere Antworten, Auswertung mit Messskala („nie ----------------------X----- immer“) —-> Kreuz setzten wo es zutrifft
- nutzt man wenn man weiss, dass die Person sehr differenziert beurteilen kann (besonders wenn es darum geht einen Start und Endwert herauszufinden -- man kann auch kleine unterschiede sehen, nicht nur einen Unterschied zwischen zwei Zahlen)

Überlegungen zu Ratingskalen bei Beurteilungsaufgaben

Anzahl Skalenstufen (Differenziertheit)

Wie differenziert soll das Konstrukt behandelt werden?

i. d. R. werden 3 bis 7 Stufen verwendet, je nach dem vermuteten Grad der kognitiven Differenziertheit des zu testenden Konstruktes
- bei mehr als 7 Stufen gibt es nicht mehr Informationsgewinn >> die meisten Leute können dass nicht mehr bestimmen, nur bei der Stimmung werden manchmel mehr verwendet
- Bei vielen Stufen tendieren Personen dazu extreme Antworten zu wählen >> Überforderung
Spezialfall: visuelle Stufen, z. B. Smileys :-( :-| :-) —> Gesichter als Antwortmöglichkeit (diskret gestuft)

Überlegungen zu Ratingskalen bei Beurteilungsaufgaben

bipolar vs. unipolar

unipolares Item geht von einem Nullpunkt aus und nur in eine Richtung
- Bsp.: „Wie oft fahren Sie Auto?“ nie – selten – manchmal – oft – sehr oft

bipolares Item verläuft von einem negativen Pol über einen Nullpunkt (Indifferenz, z. B. „weder noch“) bis zu einem positiven Pol
- Bsp.: „Ich fühle mich oft angespannt und nervös“
  - starke Ablehnung – Ablehnung – weder Ablehnung noch Zustimmung – Zustimmung – starke Zustimmung

Ratingskalen bei Beurteilungsaufgaben

Bezeichnung der Skalenstufen („labels“)

Bezeichnung der Skalen (numerisch, verbal, optisch oder gemischt) –“labels“ >> was eignet sich am besten

Verbale Etikettierungen haben den Vorteil, dass die Bedeutung der Antwortstufen durch eine sprachliche Umschreibung vereinheitlicht wird. Aber

Interpretation von solchen Ettikettierungen muss einem bewusst sein, nich jeder interpretiert ein Begriff gleich >> kann auch gewollt sein!
Eine Benennung mit Zahlen soll oftmals bewirken, dass die Ratingskala wie eine Intervallskala benutzt wird.
Bei einer Kombination aus beiden erhofft man sich die Vorteile von beiden Varianten.
- Wie sehr vertrauen sie ihrem Partner? 1 Gar nicht >> 5 sehr stark
- Wichtig dass man gleiche Abstände zwischen den Punkten wählt wenn man alle Zahlen beschriftet! Ansonsten einfach die Pole und die Mitte beschriften

Ratingskalen bei Beurteilungsaufgaben

Neutrale Mittelkategorie

nicht immer eindeutig interpretierbar
Unentschiedenheit; versteht Item nicht; hält Item für unpassend; verweigert Antwort; „typische“ Antwort; Unmotiviertheit/Gleichgültigkeit

Wenn ich menen Partner unterstütze oder ihm helfe, tue ich dies meist weil ich später in irgendeiner Form eine Gegenleistung erwarte >> Stimme gar nicht zu >> stimme mässig zu >> stimme völlig zu

andere Gründe haben die Mitte anzukreuzen >> Unentschiedenheit >> schwierig zu interpretieren
bei bipolaren Items weiss man dass die reliabilität erhöht wird wenn eine Mitte vorhanden ist >> oft hofft man eine mittlere Ausprägung zu erhalten

Ratingskalen bei Beurteilungsaufgaben

Weiss-nicht Kategorie

Essen Sie gerne japanisches Essen?
ja > nein > ich weiss nicht

Person könnte meinen >> Sie hat noch nie japanisch gegessen oder weder gerne noch nicht gerne!
Weiss nicht Kategorie wird nie in Auswertung eingeschlossen! >> Datenverlust
- besser eine Weitere "Dazwischen" Kategorie + Möglichkeit zu sagen, dass man es nicht kennt >> Mittelkategorie + weiss nicht
Wichtig eine weiss nicht Kategorie wenn es inhaltlich Sinn macht
- Besser aber wenn es Fragen sind, bei der Alle eine Mögliche Antwort haben

>> Bei jedem Fragebogen überlegen was inhaltlich Sinn macht!

Ratingskalen bei Beurteilungsaufgaben:

Reverse kodierte (invertierte) Items

Items mit einer negativen Valenz, d.h. sie gehen in die umgekehrte Richtung in der Erfassung des Merkmals

Tiefer Wert = Hohe Ausprägung in einem Merkmal

Vorteile

Man kann schauen ob eine Person Aufmerksam beantwortet >> Wird genau gelesen? Werden nur hohe oder nur tiefe Antworten gegeben? Ist es merkmalskonform?
Schwelle wird geändert >> "Ich fühle mich selten einsam und traurig" >> wird anders beantwortet als "Ich fühle mich oft einsam und traurig"
Verringert Ja-Sage-Tendenz

Nachteile

Personen mögen sie nicht gerne, werden oft als verwirrend angesehen >> Fehlertendenz
- das Wort "nicht" wird überlesen
Wichtig dass es genau so extreme "normale" items hat, wie umgepolte
genügend, über den Test verteilte umgepolte Items, nicht nur eines!

Ratingskalen bei Beurteilungsaufgaben:

Intensität vs. Häufigkeitsskalen

Frage ich nach Intensität oder nach Häufigkeit?

Intensität -- subjektive Einschätzungen

Häufigkeit -- Nach Anzahl fragen >> konkrete Antworten

Ich war im letzten Monat oft aufgebracht, weil etwas unerwartetes geschehen ist? >> Nicht - sehr
Wie oft waren Sie im letzten Monat aufgebracht, weil etwas unerwartetes geschehen ist? >> nie - immer

Intensitätsangebe hier ist nicht direkt interpretierbar!

Aber auch die Häufigkeitsangeben sind teilweise schwer interpretierbar, da man nicht genau weiss wie oft "manchmal" heisst

Wenn man genaue Angaben wie 1-2x pro Woche macht, kann man es genauer Interpretieren

Vor- und Nachteile Beurteilungsaufgaben mit mehrstufige Ratingskalen

Vorteile:
— ökonomisch bei Durchführung und Auswertung — kürzere Bearbeitungszeit
— (relativ) differenzierte Informationen

Nachteile:

— Konstruktion kann aufwendig sein

— subjektiv unterschiedliche Auffassung der Abstufungen (eigentlich Ordinalskalierung)

mittlere oder neutrale Antwortkategorie kann problematisch sein
Verfälschungen (z.B. Antworttendenzen)

Allgemeine Probleme bei Itembeantwortung

Verfälschungen die Unabhängig vom Konstrukt sind

Systematische Fehler die Validität verringern
- Beantwortung der Intems die nichts mit dem Merkmal zu tun haben die Interpretation verfälschen

1. Absichtliches Fälschen >> Simulation

schwierig zu Umgehen
Wenn die Person nicht weiss, was gemessen wird kann mann Fälschen verringern
Annonymität hilft Fälschen zu verringern

>>Optimizing- Satisficing- Modell

Optimizing: positiver Grund als Motivation für Teilnahme (Bsp. Selbstbild, Altruismus oder Belohnung) >> zwar gründliche Bearbeitung der Items, aber Verzerrungen
Satisficing: zur Teilnahme verpflichtet / beiläufige Teilnahme >> oberflächliche/arbiträre Beantwortung der Items
- Motivation steigern, klar machen, dass es wichtig ist.
- Leute möglichst nicht zwingen

2. Soziale Erwünschtheit

Art der Optimizing Problems
Selbst- vs. Fremdtäuschung
Verringerung durch Aufklärung des Untersuchungsgegenstands, Anonymität, obj. Persönlichkeitstests oder Kontrollskala
- besser schriftlich als mündlich >> Abstand zwischen Proband und Testleiter verringert soziale Erwünschtheit
- Kontrollitems "Manchmal lüge ich wenn ich muss" / "Zu viel Wechselgeld nicht zurückgeben" >> Wenn solche Items alle mit nein beantworten, kann das heissen, dass die Person nach sozialer erwünschtheit beantwortet

3. Antworttendenzen

die von der zu messenden Personeneigenschaft unabhängige Neigung einer Person die Ratingskale in einer bestimmten Art und weise zu gebrauchen
- Tendenz zur Mitte
- Akquieszenz

Kriterien der Itemformulierung - Kriterien der Itemformulierung

- direkt/indirekt

Merkmal direkt ansprechen oder nach einem Verhaltensindikator fragen
Bsp.: „Halten Sie sich für rücksichtsvoll?“ (direkt)
Indikator (indirekte Frage nach konkreter Situation) meist besser: „Halten Sie an, wenn jemand am Fußgängerüberweg steht?“
- Indikatoren geben meist bessere Antworten, man muss sie aber gut auswählen

- hypothetischer/tatsächlicher Sachverhalt

Bsp.: „Würden Sie helfen, wenn Sie beobachten, wie jemand belästigt wird?“
eher Fehleinschätzung bei hypothetischem Sachverhalt >> Soziale Erwünschtheit
besser nach konkretem Sachverhalt fragen: „Als Sie das letzte Mal beobachtet haben...“

- konkret/abstrakt

Bsp.: „Sammeln Sie gerne Briefmarken?“
konkrete Fragen sind situationsabhängig, abstrakte Fragen führen aber zu Fehleinschätzungen

- personalisiert/depersonalisiert

Bsp.: „Sollten möglichst viele gegen ein Ausländergesetz demonstrieren?“ (depersonalisiert)
zuverlässigere Information bei personalisierten Fragen: „Würden Sie gegen ein...“
- danach fragen was die meisten Leute machen würden, bei heiklen themen wenn man denkt dass die Person nicht ehrlich antworten würde

- Stimulusqualität - Extremität, Suggestion Wertung - und Aktualität

Kriterien der Itemformulierung - Sprachliche Verständlichkeit

Man sollte mit einmaligem Lesen die Frage erfassen können

- zu komplizierte oder umständliche Satzkonstruktionen vermeiden

gezielt nach dem Fragen was man will ohne gross darum herum reden

- möglichst kurz, aber präzise
- Verneinungen, erst recht doppelte, vermeiden

- Intensitäts- und Häufigkeitsangaben vermeiden („Sporttreiben erhöht manchmal den Selbstwert“)

man weiss nicht was die Antwort bedeutet -- nie? immer?

- Wichtiges hervorheben - fett drucken, Unterstreichen etc
- Fachausdrücke vermeiden

Kriterien der Itemformulierung - Schwierigkeit der Items

Um Unterschiede in Ausprägungen eines Merkmals messen zu können, ist Varianz im Antwortverhalten notwendig.

- extrem formulierte Items sind ungeeignet („Frauen, die abtreiben, sollten zu langen Gefängnisstrafen verurteilt werden“)

hier wird man kaum Varianz im Antwortverhalten finden >> die meisten werden sie gleich beantworten
Besser -- "Um gegen Abtreibungen vorzugehen, können auch strafrechtliche Massnahmen angemessen sein"

- Items, die praktisch von allen Vpn bejaht oder verneint werden, sind ungeeignet („Meine Gesundheit ist mir wichtig“)

- Ausnahme - Selten auftretende Merkmale

um diese zu finden, braucht es extreme Fragen
zB Ich würde mich Umbringen wenn ich es könnte

Kriterien der Itemformulierung - Eindeutigkeit des Inhalts

- zu allgemeine oder vage Aussagen unterlassen („Ich habe verschiedene Ziele im Leben“)

besser - Ich habe beruflich klare Ziele

- mehrdeutige Begriffe vermeiden („Ich bin in Gesprächen angriffslustig“)

Besser - Kontext eingrenzen - In Seminaren bin ich debatierfreudig

- nur eine Aussage pro Item (keine „double barrel“, „Ich habe Ziele im Leben und arbeite auf sie hin“)

Man weiss nicht ob Person auf das erste oder das zweite Antwortet

- Zeitpunkt/Zeitspanne eingrenzen (nicht: „In letzter Zeit fühlte ich mich öfters niedergeschlagen“)

Was heisst in letzter Zeit? - zB Im letzten Monat besser

- Verallgemeinerungen vermeiden („Alle Kinder machen Lärm“)

Kinder können Lärm machen

Kriterien der Itemformulierung - Eindeutigkeit hinsichtlich des Konstruktes

Es muss eindeutig sein, ob eine Zustimmung zu einem einzelnen Item im Sinne einer höheren oder niedrigeren Ausprägung des im Gesamttest erfaßten Konstruktes zu interpretieren ist.

Wird das Konstruk abgebildet durch die Fragen die ich stelle?

Zusammenstellung des Tests - Reihenfolge von Skalen

- Skalen für ein Konstrukt nicht auseinandernehmen

Wenn man Selbstwert und Bindungsstil erfassen will, sollte man die Dinge nicht vermischen, sondern die Konstrukte zusammenhalten

- allgemeine vor spezifischen Konstrukten testen, thematisch gruppieren

- „Counterbalancing“ bei Stimmungsfragebögen: Kontext beeinflußt oft das Antwortverhalten

Reihenfolge der befragten Konstrukten zwischen verschiedenen Gruppen variieren

- Antwortskalen klar bezeichnen

wenn unterschiedliche Antwortskalen verwendet werden, sollten diese Gruppiert verwendet werden und klar bezeichnet sein

- demographische Daten am Anfang oder Ende erfassen

besser am Anfang, falls Fragebogen nicht beendet wird
allgemein, wichtige Dinge eher am Anfang, als am Schluss

Zusammenstellung des Tests - Reihenfolge von Items

- bei Leistungsaufgaben mit leichten Items beginnen

Um Motivation nicht zu verlieren

- bei psychologischen Untersuchungen mit neutralen Items beginnen

- Konsistenz- und Aktualisierungseffekte vermeiden: ähnliche Items innerhalb einer Skala trennen, Pufferaufgaben, Instruktionen

Zusammenstellung des Tests - Hinweise in Instruktionen

- spontan und wahrheitsgetreu antworten, nichts überspringen

- Antwortmodus erklären

- Anonymität/Vertraulichkeit betonen

Übersetzung von Skalen

- erst versuchen, übersetzte Skala auf deutsch zu finden und prüfen, ob sie psychometrisch überprüft wurde
- wenn keine Übersetzung vorhanden: drei Vorgehensweisen

a) Die Üblichste: übersetzen und anschließend rückübersetzen (durch verschiedene Übersetzer), Nichtübereinstimmungen korrigieren

b) Zusammenfügen („Merging“): zwei Übersetzer übersetzen gleichzeitig, Resultate werden verglichen

c) in Gruppe übersetzen, anschließend mit Fachexperten diskutieren und sich einigen

Übersetzung muss psychometrisch geprüft und an neuer Stichprobe getestet werden

Itemanalyse im Rahmen der Klassischen Testtheorie: Evaluation der Items

- Evaluation eines Tests erst auf Itemebene, dann auf Testebene
- Itemanalyse: Selektion der Testitems mittels Evaluation auf deskriptiv-statistischer Ebene

- psychometrische Item-Eigenschaften als Kennwerte bestimmen und anhand vorgegebener Qualitätsstandards beurteilen
- Ziel: Items mit den besten psychometrischen Eigenschaften auswählen

- Itemanalyse umfaßt:

- Schwierigkeitsindex
- Itemvarianz
- Trennschärfe
- Homogenität
- Itemselektion und Testwertrevision - Analyse der Testwertverteilung

Itemanalyse im Rahmen der Klassischen Testtheorie: Evaluation der Items

Schwierigkeitsindex

- Definition: Der Schwierigkeitsindex einer Aufgabe ist definiert durch die prozentuale Häufigkeit, mit der sie von einer repräsentativen Stichprobe von Pbn richtig bzw. in Schlüsselrichtung beantwortet wird (Werte Schwierigkeitsindex: 0 - 100).

- eigentlich handelt es sich um einen „Leichtigkeitsindex“, da ein hoher Wert bedeutet, daß ein Item leicht ist (es viele Pbn gelöst haben)

Differentialpsychologischer Ansatz
- ein Test soll Pbn mit hoher Merkmalsausprägung von Pbn mit niedriger Merkmalsausprägung trennen
- Items, die von allen Pbn gelöst (bzw. zugestimmt) werden oder von niemandem gelöst werden, tragen zu dieser Anforderung nichts bei
- daraus folgt: Items von mittlerer Schwierigkeit kreieren (optimal: Pi = 50)

Schwierigkeitsindex - Leistungtests - Speedtests

Speedtest - relativ viele, einfache Items -- wie viele Items kann Person in der vorgegebenenen Zeit beantworten?

mögliche Antwortformate - richtig falsch, dichotom oder Mehrfachauswahl

- Problem der fehlenden Antworten

manchmal fehlt die Zeit

- maximal mögliche Punktzahl sollte nicht im Nenner stehen, da sonst die Schwierigkeit überschätzt wird (der Schwierigkeitsindex unterschätzt wird (!))

Items sind ja relativ einfach, die Person ist einfach nicht so weit gekommen

- Inangriffnahme-Korrektur:

Anstelle Totale Mögliche Anzahl im Nenner, nur die n-bearbeiteten Aufgaben
- dh nur die am Ende unbeantworteten Frage, die die in der Mitte ausgelassen wurden werden gezählt

Schwierigkeitsindex bei Niveau-(Power-)Tests

- keine Zeitbegrenzung wie bei Speedtests >> man geht davon aus dass alle Bearbeitet werden können, aber es nicht alle lösen können

man geht davon aus, daß alle Items bearbeitet werden können, daher gibt es keine nU (unbearbeiteten)
aber Problem des Ratens!

Ratekorrektur

Schwierigkeitsindex muß wegen des Ratens korrigiert werden, damit die Schwierigkeit nicht unterschätzt wird (bzw. der Schwierigkeitsindex überschätzt wird)
- Index wird kleiner, dh sie werden schwieriger eingeschätzt
im Zähler zieht man von der Zahl richtiger Antworten die richtigen ab, die durch zufälliges Raten zustande gekommen sind (man nimmt an, daß alle falschen Antworten durch Raten zustandegekommen sind)
je mehr falsche Antworten, desto größer die Ratekorrektur
je größer die Anzahl Antwortalternativen, desto geringer die Ratekorrektur (Ratewahrscheinlichkeit geringer)

Wenn viele Leute das Item falsch hatten, geht man davon aus, dass viele der Richtigen Antworten auch durch Raten verursacht wurden

nicht nötig bei Persönlichkeitstests oder MC-Fragen mit mehr als vier Antwortmöglichkeiten

bei mehr als 4 Antwortmöglichkeiten ist die Ratewahrscheinlichkeit zu klein

Schwierigkeitsindex bei Persönlichkeitstests

keine Richtig-falsch-Antworten, daher wird der Schwierigkeitsindex als symptomatische Antwort für eine hohe Merkmalsausprägung betrachtet

Festlegung, welche der Antwortstufen als symptomatisch und welche als unsymptomatisch für eine hohe Merkmalsausprägung anzusehen sind

Vorgehensweise

1. revers kodierte Items umpolen (Balkendiagramme vertikal spiegeln)
2. S-Index berechnen: arithmetischer Mittelwert der Itemantworten von n Probanden auf einer k-stufigen Antwortskala

- Antwortskala 1-7 muß für Berechnung des Schwierigkeitsindex‘ mit null beginnen (0-6), weil Schwierigkeitsindex immer Werte 0 - 100
- Pi = (erreichte Punkte / erreichbare Punkte) * 100

Erwünschter Schwierigkeitsindex

allg. grösste Differenzierungsfähigkeit bei mittlerer Schwierigkeit >> 50

oft Items mit unterschiedlichen Schwierigkeiten gewünscht, ermöglicht Diskrimination auf verschiedenen Stufen (5 ≤ Pi ≤ 95)

Spezialfall: Erfassung von Probanden mit extremer Merkmalsausprägung
- zB Sonderschüler, Klinische Patienten

Einbezug weiterer Kriterien

in Zusammenhang mit Itemvarianz und Trennschärfe beantworten
- Trennschärfe sagt uns inwiefern die Löser die gleichen Items über den Test beantworten >> Wer sind die Löser?
- >> Grosse Merkmalsstreuungen begünstigen hohe Korrelationen, also günstige Voraussetzung füür Trennschärfe und Homogenität der Skala
bei mehreren Items mit gleicher Schwierigkeit dasjenige mit höherer Trennschärfe bevorzugen (hinreichende Trennschärfe ist wichtig)
Aber: auch auf menschliche Faktoren achten
- manchmal braucht man auch einfache Items in einem Test, zB Eisbrecher Items

Zudem:

bei Speedtests: grosse Anzahl leichter Items
bei Powertests: manchmal Anordnung nach ansteigender Schwierigkeit

Trennschärfe

Drückt inhaltlich aus, wie gut ein Item das gleiche Merkmal misst, wie der Rest des Tests

Definition: Die Trennschärfe gibt an, wie stark die Differenzierung des jeweiligen Items mit der Differenzierung der Gesamtskala übereinstimmt.

Skala und Item/Aufgabe messen dasselbe
Trennschärfe gibt an, wie gut ein Item den Gesamttest, der aus den restlichen Items gebildet wird, widerspiegelt
Index, inwiefern die Löser über die Items hinweg konstant bleiben
Aussage darüber, wie gut das gesamte Testergebnis aufgrund dieses einzelnen Items vorhersagbar ist
Statistisch: korrelativer Zusammenhang zwischen Item- und Test-Score

Testschärfe -- Berechnung

Korrelation zwischen Item- und Test-Score: rit
wenn Item und Skala intervallskaliert: Produkt-Moment-Korrelation
wenn Item dichotom und Skala intervallskaliert: Punktbiseriale Korrelation

Korrelation

— beschreibt den Zusammenhang zwischen zwei (intervallskalierten) Variablen (Items)

Korrelation ist die standardisierte Kovarianz (Korrelation geteilt durch das Produkt beider Standardabweichungen):
- Stärke wie auch Richtung kann beschrieben werden
- von -1 bis +1
Kovarianz beschreibt das Ausmass der gemeinsamen Variation zwischen zwei Variablen (Items)
- lineare Beziehung gemessen
- Kann ins minus bis plus unendliche gehen

Trennschärfe für intervallskalierte Items

+ Problem der Autokorrelation

Produkt-Moment-Korrelation
Voraussetzung:
- intervallskalierte Item-Scores
- Skala intervallskaliert
- lineare Beziehung zwischen Item-Score und Test-Score

Problem der Autokorrelation

bei der Berechnung der Trennschärfe (Korrelation zwischen Item- und Test-Score) geht der Wert des betrachteten Items zweimal in die Berechnung ein, dadurch wird die Trennschärfe künstlich erhöht (Item korreliert mit sich selbst zu 1.00)
- Die Item Score ist im Test-Score enthalten
Deshalb —> Teil-Ganz-Korrektur (Part-whole-Korrektur): der Wert des betrachteten Items wird vom Test-Score abgezogen, man erhält den korrigierten Test-Score
- Einfluss der Korrektur ist umso geringer, je grösser die Anzahl Items und je homogener (je ähnlicher die Items, dh alle das gleiche messen, dh hoch korrelieren) die Skala
- Mann muss für jedes Item einzeln gemacht werden
- Durch die Korrektur wird der Wert für die Trennschärfe tiefer, da man ohne Korrektur die Trennschärfe überschätzt

Trennschärfe für dichotome Items

punkt-biseriale Korrelation

Hier wird Differenz berechnet zwischen leuten die eine Antwort mit 1 und mit 0 beantwortet haben

Überlegungen zur Trennschärfe

Beschriftung in SPSS-Tabellen: Corrected Item-Total Correlation

gute Trennschärfe: rit > .50, niedrige Trennschärfe: rit < .30
- je höher die Trennschärfe, desto mehr wird das Item von Probanden mit hohen Testwerten gelöst bzw. symptomatisch beantwortet
negative Trennschärfe: Item wurde von Probanden mit niedrigen Testwerten gelöst bzw. symptomatisch beantwortet >> Bei einem Leistungstest ist das schlecht, bei einem Persönlichkeitstest muss man dass Item wohl umpolen
- wenn Trennschärfe > 0: Item mißt das gleiche wie der Rest des Tests
- wenn Trennschärfe = 0: Item mißt etwas völlig anderes
- wenn Trennschärfe < 0: Item mißt genau das Gegenteil
  - die korrigerte Trennschärfe ist stets kleiner als die unkorrigerte Trennschärfe

Diagnostik I

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google