Cartes mémoires M6a Kurs 03421 Psychologie FernUniversität Hagen (Seite 4 von 6)

Cartes-fiches	219
Utilisateurs	63
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	14.01.2015 / 27.02.2025
Lien de web	https://card2brain.ch/cards/m6a_kurs_03421_psychologie_fernuniversitaet_hagen?max=40&offset=120
Intégrer	<iframe src="https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Entwicklungsschritte einer Testkonstruktion

Abgrenzung des Merkmal- und Geltungsbereichs
Auswahl der grundsätzlichen Vorgehensweise bei der Testentwicklung
Generierung des Itempools:
- Festlegungen zur Formulierung der Fragen
- Festlegungen zum Format der Antwortmöglichkeiten

Merkmals- und Geltungsbereich

- Klärung zweier Fragen am Anfang:

Merkmalsbereich: Was soll der Test messen?

richtet sich auf Konstrukt(e), die erfasst werden sollen

2. Geltungsbereich: Wo, bei wem und wofür soll der Test eingesetzt werden?

richtet sich auf Zielgruppe, Kontext und Zweck der Anwendung

- zwischen Merkmalsbereich und Geltungsbereich treten Wechselwirkungen und Implikationen auf

- problematisch: Abgrenzung des Merkmalsbereichs / Konstrukts

Literaturrecherche
- heterogene Konstrukte
- offene Widersprüche
- auch verwandte Schlagwörter einbeziehen
- ggf. Umdefinieren/ Einschränkung Merkmalsbereich
weitere Hilfsmittel zur Abgrenzung:
- explorative Verfahren der Datenerhebung, z. B. qualitative Interviews mit Experten
- strukturierte Varianten der Merkmalsabgrenzung
  - Facettentheorie:
    - Methode zur Systematisierung wissenschaftlicher Fragestellungen
    - Werkzeuge:
      - zur vollständigen Eingrenzung eines Merkmalsbereichs
      - zur Zergliederung in einzelne Teilmerkmale (Fa-cetten) und deren Ausprägungen bzw. Typen
      - zur Darstellung der Beziehungen zwischen den Facetten
      - zur empirischen Skalierung
  - act frequency approach (AFA)
  - critical incident technique (CIT) (Methode der kritischen Ereignisse)
- bei Messung psychologischer Konstrukte: Arbeitsdefinition
  - bei AFA und CIT Definition und Itemformulierung in einem Schritt
  - sonst meist Arbeitsdefinition als Grundlage der Formulierung
    - kann auch aus überschaubarer Liste konkurrierender Definitionen bestehen
- bei kriterienorientierten Tests
  - Merkmalsbereich ist durch Inhalt und Umfang der Lernziele definiert
- Tests zur Vorhersage bestimmter Verhaltensbereiche:
  - definitorische Eingrenzung des zu prognostizierenden Verhaltens (z.B. mit Hilfe arbeits- und anforderungsanalytischer Verfahren)

Eingrenzung des Geltungsbereiches

häufig eingeschränkt durch Auftraggeber
Einhaltung ethischer Richtlinien
Ansprüche an empirische Prüfung und Normierung steigen, je breiter Anwendungsbereich und Zielgruppe definiert sind
empirische Fundierung sollte in Entwicklungsphase angestrebtem Geltungsbereich entsprechen > Entscheidung über Geltungsbereich hat Einfluss auf Planung der späteren Entwicklungsschritte

Festlegung des generellen Konstruktprinzips

grundlegende Konstruktionsprinzipien:
- rationale = deduktive = theoriegeleitete Konstruktion
- externale = empirische = kriteriumsorientierte Strategie
- internales = induktives = faktorenanalytisches Vorgehen
- typologisierender Ansatz (selten)
- Prototypenansatz (selten)
jeweils viele Varianten, können auch prinzipienübergreifend kombiniert werden

rationale Testkonstruktion

Ausgangspunkt: operationale theoretische Definition des Zielkonstrukts:
- daraus deduktive Ableitung spezifischer Indikatoren, die sich direkt beobachten bzw. erfragen lassen
- auch theoretische Auswahl aus vorhandenem Itempool möglich
- Umsetzung von theoretischer Definition in Messvorschrift/ konkrete Items nicht ohne Intuition/ subjektive Bewertung möglich (oder aufwändige Techniken: AFA, CIT)
- Übergänge zwischen rationaler und erfahrungsgeleiteter Testkonstruktion fließend

2. hierarchisch strukturiertes Konstrukt (mehrdimensional):

Definition soll alle Subkonstrukte/ Facetten einschließen
Beispiel: Berliner Intelligenzstruktur-Test (BIS-Test) (Jäger et al., 1997):
- hierarchische Struktur der Intelligenz
- gemeinsames Element auf höherer Ebene: generelle Intelligenz
- jede der im Modell genannten sieben speziellen Fähigkeiten lässt sich einem der Modi, Inhalte und Operationen zuordnen
- Intelligenzleistungen entstehen bimodal = Kombination mindestens einer inhaltsgebundenen und einer operationalen Komponente
- Subtests erfassen Kombinationen

3. homogenes Konstrukt:

einfacher
Beispiel: Retrospective Behavioral Self-Control Scale (RBS, Marcus, 2003):
- beruht auf Definition von Selbstkontrolle in der kriminologischen Theorie von Gottfredson und Hirschi (1990)
theoriegeleitete Skala wird oft durch empirische Itemanalysen verkürzt (Items werden eliminiert)
Notwendigkeit der Erhebung empirischer Daten spätestens bei Validierung rational konstruierter Skalen

externale Testkonstruktion

empirische Daten stehen bereits in frühen Stadien der Testkonstruktion im Vordergrund
Vorliegen verschiedener Gruppen üblich, aber nicht zwingend erforderlich (teilweise technische Voraussetzung der Tests)
typische Anwendungsfälle:
- Unterscheidung Vorliegen/ Nichtvorliegen von Persönlichkeitseigenschaften
  - Items zur Diskriminierung zwischen diesen Gruppen werden aufgenommen
- bei kontinuierlichen Merkmalen (z. B. Berufserfolg) auch Konstruktion künstlicher Gruppen (Extremgruppen): „Höchstleister“, „Niedrigleister“
Extremfall: „blinder Empirizismus“ = „dust bowl empiricism“ > kompletter Verzicht auf inhaltliche Erwägungen
- in diesem Sinne ist externale Testkonstruktion kriterienorientiert (nicht mit kriterienorientierten Tests zu verwechseln)
Vorgehen analog zum regressionsanalytischen Ansatz:
- Grundproblem besteht in atheoretischer Anpassung an Stichprobe
- Folgen:
  - inhaltlich schwer interpretierbare Skalen
  - große und repräsentative Stichproben notwendig
  - unabhängige Replikation = Kreuzvalidierung notwendig
- Vorteile:
  - geringes theoretisches Vorwissen notwendig
  - gewisse kriterienbezogene Validität > praktischer Nutzen
Beispiele external konstruierter Tests:
- Minnesota Multiphasic Personality Inventory (dt. Hathaway et al., 2000) > klinisch:
  - Konstruktion nach Kontrastgruppenmethode
  - Auswahl von Items, die zwischen psychisch unaufälligen und schizophrenen, manischen … Gruppen unterscheiden
- California Psychological Inventory (CPI, Gough & Bradley, 1996):
  - analoge Konstruktion
  - bezieht sich auf Normalbereich der Persönlichkeit

internale Testkonstruktion

greift wie bei externaler Konstruktion auf empirische Informationen zurück
beziehen sich nicht auf Außenkriterium (z. B. Unterscheidung Gruppen), sondern auf Binnenstruktur Test:
- Generierung breit angelegter Itempool
- anschließend Untersuchung der Daten hinsichtlich ihrer Korrelation zwischen den Items > explorative Varianten der Faktorenanalyse
- Ergebnis: mehrdimensionale Inventare, deren Subskalen jeweils homogene Konstrukte messen, insgesamt aber breiten und heterogenen Merkmalsbereich abdecken
Verfahren ist empirisch, da über Binnenstruktur keine theoretischen Vorannahmen getroffen werden, sondern diese aus Daten abgeleitet werden
Ergebnisse bilden nicht selten Grundlage späterer theoretischer Modelle durch Induktion aus spezifischen Daten auf allgemeines Modell
über Abgrenzung des Merkmalsbereichs nach außen sollten theoretische Vorstellungen existieren
Beispiele:
- Primärfaktorenmodell der Intelligenz (Thurstone & Thurstone, 1941) > auf dem beruhen zahlreiche Intelligenztests
- faktorenanalytisch begründete Modelle und entsprechende Inventare im Bereich der Persönlichkeitseigenschaften, u. a. die von Guilford, Eysenck, Varianten des Fünf-Faktoren-Modells

typologisierender Ansatz

selten
Verbindung von externaler und internaler Strategie:
- Identifikation von Gruppen von Personen oder Objekten auf der Grundlage empirischer Informationen
dominierendes statistisches Verfahren: Clusteranalyse:
- Zusammenfassung von Personen zu Clustern, die sich durch ähnliche Konfiguration von Ausprägungen auf mehreren Merkmalen auszeichnen
- häufig Reanalyse internal konstruierter Skalen (also keine Test-Neukonstruktion)
- gegenüber der Verwendung von Dimensionen mit Informations- und damit Validitätsverlust verbunden
- Beispiel: Myers-Briggs-Type Indikator (MBTI) (Myers et al., 1998) bei Personalberatern

Prototypenansatz

Ähnlichkeit zu einem idealtypisch eingeschätzten Vertreter eines Typus oder einer Verhaltensweise als kognitiver Ankerreiz für Einschätzung anderer Objekte vorgegeben
Gefahr durch Stereotypisierung
Beispiel: Act frequency approach (AFA) (Buss & Craik, 1983)
Vergleichende Bewertung der drei Hauptprinzipien:
- kaum systematische Validitätsvorteile, z.T. aber leichte Vorteile der rationalen sowie Nachteile der internalen Strategie bei der kriterienbezogenen Validität
- Wahl der am besten geeigneten Strategie sollte von Vorkenntnissen über Merkmalsbereich und Geltungsbereich abhängen (so rational wie möglich)
- Vorzug der rationalen Methode: theoretische Fundierung und Interpretierbarkeit der Testergebnisse > dies oft bei externaler Strategie nicht gegeben, die aber andererseits dafür den geringsten Voraussetzungen an den theoretischen Kenntnisstand unterliegt

Merkmale unterschiedlicher Konstruktionsprinzipien für Tests

> siehe Grafik

Kategorien von Persönlichkeitsitems (Angleitner et al., 1986)

1. Beschreibung von Reaktionen
        a. offene, beobachtbare Handlungen (Ich gehe oft auf Partys)
    b. verborgene, interne Handlungen (Ich denke viel über mich selbst nach)
        c. Symptome, physische Reaktionen (Ich schwitze viel)
2. Eigenschaftszuschreibungen (Ich habe gute schauspielerische Fähigkeiten)
3. Wünsche und Interessen (Manchmal würde ich am liebsten laut fluchen)
4. Biografische Fakten (Ich hatte in meiner Jugend schonmal Ärger mit dem Gesetz)
5. Einstellungen und Überzeugungen (Ich glaube Gesetze sollte mit aller Härte durchgesetzt werden)
6. Reaktionen anderer auf die eigene Person (Ich stehe auf Partys selten im Mittelpunkt)

> hier könnten auch Eigenschaftszuschreibungen durch andere ergänzt werden (Meine Freunde halten

mich für etwas schüchtern)
7. Bizarre Items (Jemand versucht mich zu vergiften)

Generierung eines Itempools

Unterscheidungen:
- inhaltliche Aspekte = Was frage ich
  - objektive Informationen = Leistungstests
  - subjektive Informationen:
    - Selbsteinschätzung
    - Fremdeinschätzung
- formale Aspekte = Wie frage ich
  - sprachliche Aspekte der Itemformulierung
  - Festlegung des Antwortformats
Ordnungsschemata sind meist nach formalen Aspekten ausgerichtet und häufig auf Aufgaben in Fähigkeits- und Aufgabentests zugeschnitten
nicht seltene Quelle: Auswahl aus vorhandenem Itempool (z.B. MMPI o. International Personality Item Pool (IPIP))
sonst: Generierung Pool neuer Aufgaben:
- weitgehend unsystematisch – geleitet von Intuition und Geschick des Testautors (z.B. von dessen Einfühlungsvermögen in die Testperson)
  - sehr wesentlich: Qualität der Definition des Merkmalsbereichs
    - jedes Item sollte innerhalb des Merkmalsbereichs liegen
    - Itemmenge sollte insgesamt diesen Bereich repräsentativ abdecken
  - Empfehlung: Aufstellung Regelsystem für spezifische Testentwicklung
    - Regeln für inhaltliche Aspekte
    - Regeln für formale Aspekte
- Techniken zur systematischen Unterstützung der Generierung von Items
  - helfen gleichzeitig bei der Abgrenzung des Merkmalsbereichs:
    - art frequency approach (AFA) (Buss & Craik, 1983) = Ansatz der Verhaltenshäufigkeiten
    - critical incident technique (CIT) (Flanagan, 1954) = Methode der kritischen Ereignisse

Art frequency approach (AFA) (Buss & Craik, 1983)

Ansatz der Verhaltenshäufigkeiten
Metatheorie der Persönlichkeit
Dispositionen werden als kognitive Theorien aufgefasst, in denen Verhaltensweisen nach der Häufigkeit ihres Auftretens ohne eigentlichen Erklärungswert zusammengefasst werden
Handlungen sind für bestimmte Eigenschaft besonders zentral = prototypisch oder eher peripher
AFA stellt Methodologie zur Aufdeckung der Unterschiede und zur Umsetzung in ein Messinstrument zur Verfügung
Vorgehensweise:
- Vpn (Laien) erhalten Eigenschaft als Vorgabe (z.B. Dominanz)
- sollen sich bekannte Personen mit hoher Ausprägung dieser Eigenschaft vorstellen
- dazu Aufschreiben konkreter passender Eigenschaften, die sie beobachtet haben
- entstandene Itemsammlung wird von weiterer Teilnehmergruppe auf Prototypizität für Eigenschaft eingeschätzt
- besonders passende Items werden beibehalten und in Ich-Form übertragen > Test zur Selbsteinschätzung möglich (prototypisch für Dominanz:"Ich verbat ihm/ ihr den Raum zu verlassen." o. "Ich gab Ratschläge, ohne darum gebeten worden zu sein.")
Bewertung:
- empirisch gute Beurteilungen
- AFA erlaubt Generierung/ Zuordnung von Items zu Skalen bzw. Verhalten zu Eigenschaften unabhängig von Intuition des Testautors
- psychometrisches Problem bei Umsetzung in Selbstberichte im Befund von sog. Aktivitätsfaktoren (manche Vpn neigen generell häufiger als andere dazu anzugeben, dass sie Verhalten jeglicher Art gezeigt haben (o. sie sind tatsächlich generell aktiver), weshalb unterschiedliche Eigenschaften in nach AFA konstruierten Tests tendenziell höher miteinander korrelieren als bei konventionell konstruierten Persönlichkeitsinventaren)

Critical incident technique (CIT) (Flanagan, 1954)

Methode der kritischen Ereignisse
stammt aus Organisationspsychologie als Verfahren der beruflichen Leistungsbeurteilung
Ansatzpunkt: gute oder unbefriedigende Leistungen schlagen sich in konkreten erfolgskritischen Ereignissen nieder
kritische Ereignisse werden durch unabhängige Befragungen generiert
Teilnehmer in der Regel Stelleninhaber oder andere Experten
umfangreicher als „acts“ > schließen Vor- und Nachgeschichte des kritischen Ereignisses ein
Umsetzung in Erhebungsinstrument erfolgt wieder mittels un-abhängiger Einschätzung der Erfolgswirksamkeit
kurze Zusammenfassungen der kritischen Ereignisse dienen als Anker für unterschiedliche Performanz
Bewertung:
- in Bezug auf Validität zur Vorhersage beruflicher Leistung vielfach empirisch bewährt
- Hilfsmittel zu anforderungsanalytischen Unterstützung von Verfahren mit Ziel der Maximierung der kriterienbezogenen Validität
- Abgrenzung des relevanten Merkmalsbereichs auch dann möglich, wenn dies mangels Daten mit empirischen Mitteln der externalen Testkonstruktion nicht möglich ist
- Entwicklungsaufwand erheblich
- Verhaltensbeispiele für mittlere Leistung schwer zu finden
- Sammlung kritischer Ereignisse z. T. nicht homogenes und interpretierbares Konstrukt

Item

besteht aus:

Itemstamm = eigentliche Frage, Aufgabe, Reiz
Antwortformat bzw. mögliche Reaktionen

Richtlinien zur Formulierung von Itemstämmen

Förderung der Verständlichkeit
Eindeutigkeit der Formulierung
Vermeidung der Bevorzugung bestimmter Antwortalternativen

Beispiele für Fomrulierungsrichtlinien

Verständlichkeit:
- meide (auch versteckte) doppelte Verneinungen (Ich bin nicht oft traurig > trifft zu trifft nicht zu)
- meide Ausdrücke, die nicht von allen Teilnehmern verstanden werden
- drücke den Sachverhalt so kurz wie möglich und so lang wie nötig aus
Eindeutigkeit:
- lege jedem Item nur einen sachlichen Gedanken zugrunde
- vermeide starke Verallgemeinerungen
- verwende nur eindeutige zeitliche und situative Bezüge
Meidung von Antworttendenzen:
meide (unnötig) suggestive und (unnötig) wertende Formulierungen
meide Gemeinplätze (Items, die von allen Teilnehmern gleich beantwortet werden würden)

Antwortformat

gebundene Beantwortung:
- konkrete Lösungsmöglichkeiten oder Antwortalternativen vorgegeben
offene Beantwortung:
- nicht oder nur wenig durch Antwortvorgaben eingeschränkt

8 spezifische Aufgabengruppen (nach Jonkisz und Moosbrugger, 2007)

Aufgabentypen:

Aufgaben mit freiem Anwortformat:
1. Kurzaufsatzaufgaben
2. Ergänzungsaufgaben
Aufgaben mit gebundenem Antwortformat:
1. Ordnungsaufgaben (Zuordnungsaufgaben; Umordnungsaufgaben)
2. Auswahlaufgaben (dichotome Aufgaben; Mehrfachwahlaufgaben)
3. Beurteilungsaufgaben (Analogskalaaufgaben; Ratingskalaaufgaben)
Aufgaben mit atypischem Antwortformat

Items mit freiem Antwortformat

eher bei Fähigkeits- und Leistungstests > endliche Zahl von objektiv richtigen Lösungen
- Ausnahme: projektive Verfahren (freie Assoziation)
Teilstrukturierung: Teil der Lösung ist vorgegeben (z.B. Lückentext)
Aufgabentypen:
- Ergänzungsaufgaben (z.B. in welchem Land liegt die Stadt Lima?)
- Kurzaufsatz mit völlig freiem Antwortformat (z.B. wie kommen Sommer und Winter zustande?)
Bewertung offener Antwortformate:
- Zufallslösungen kaum möglich, ggf. Lösungsweg erkennbar
- qualitative Auswertung kann vorgenommen werden
- inhaltlich besteht Möglichkeit der Konstruktion komplexer Aufgaben
- teilweise unerlässlich bei bestimmten Aufgabenstellungen
  - Erfassung stilistischer Begabung
  - Gedächtnistests zur Reproduktion von Wissen
Nachteile:
- fehlende Standardisierung der Antworten
- Problem erschöpfender Musterlösungen
- ggf. Folgefehler bei Lückentexten > mangelnde stochastische Unabhängigkeit der Items
- besonders bei Kurzaufsätzen Problem des Vergleichs der Antworten verschiedener Teilnehmer > Einfluss subjektiver Elemente
- ggf. Zusatzausbildung notwendig für Auswertung projektiver Verfahren
- großer Auswertungsaufwand

Items mit gebundenem Antwortformat

Antwortmöglichkeiten vollständig vorgegeben
schnelle, meist automatische Auswertung möglich
kein Interpretationsspielraum > auswertungsobjektiv
Antwortvorgaben können allerdings durch Teilnehmer unterschiedlich interpretiert werden

Antwortformate

Ratingskala/ Einstufungsskala
dichotome Auswahlaufgaben
Mehrfachwahlaufgaben
Sortier- oder Ordnungsaufgaben

Antwortformat Ratingskala

in Persönlichkeits- und Einstellungsforschung häufigstes AF
mehr als zwei abgestufte Antwortkategorien (z.B. von "sehr gut" bis "sehr schlecht")
dadurch quantitative Beurteilung einer Merkmalsausprägung
Gestaltungselemente:
- Differenziertheit der Abstufung (dreistufig, vierstufig oder zehnstufig?)
  - zu wenige Stufen = Verzicht auf Information und damit auf psychometrische Güte
  - zu viele Stufen = Überforderung > Verminderung der Gütekriterien
  - psychometrisches Optimum: 5-9
  - Sonderfall: stufenlos einstellbare Analogskalen
  - ungerade Zahl: als neutral wahrgenommene Mittelkategorie, welche von Vpn manchmal als Ausweichkategorie missbraucht wird
  - gerade Zahl:
    - Zwang zur Entscheidung
    - ggf. Verringerung der Akzeptanz
    - Verwendung echter Ausweichkategorie („weiß nicht“) > Auswertungsprobleme durch fehlende Werte
  - Polarität der Items:
    - unipolar (mit logischem Minimum; z.B. "nie" als definierter Nullpunkt bei Häufigkeitsskalen)
    - bipolar (Extremausprägungen sind durch gegensätzliche Begriffe gekennzeichnet)
  - Verankerung der Stufen:
    - numerische, verbale, grafische, symbolische Verankerungen
    - jede einzelne Stufe oder nur Enden der Skala
    - Benennung jeder einzelnen Stufe führt zu Verbesserungen der Reliabilität und Validität (Krosnik)

Antwortformat Ratingskala

in Persönlichkeits- und Einstellungsforschung häufigstes AF
mehr als zwei abgestufte Antwortkategorien (z.B. von "sehr gut" bis "sehr schlecht")
dadurch quantitative Beurteilung einer Merkmalsausprägung
Gestaltungselemente:
- Differenziertheit der Abstufung (dreistufig, vierstufig oder zehnstufig?)
  - zu wenige Stufen = Verzicht auf Information und damit auf psychometrische Güte
  - zu viele Stufen = Überforderung > Verminderung der Gütekriterien
  - psychometrisches Optimum: 5-9
  - Sonderfall: stufenlos einstellbare Analogskalen
  - ungerade Zahl: als neutral wahrgenommene Mittelkategorie, welche von Vpn manchmal als Ausweichkategorie missbraucht wird
  - gerade Zahl:
    - Zwang zur Entscheidung
    - ggf. Verringerung der Akzeptanz
    - Verwendung echter Ausweichkategorie („weiß nicht“) > Auswertungsprobleme durch fehlende Werte
  - Polarität der Items:
    - unipolar (mit logischem Minimum; z.B. "nie" als definierter Nullpunkt bei Häufigkeitsskalen)
    - bipolar (Extremausprägungen sind durch gegensätzliche Begriffe gekennzeichnet)
  - Verankerung der Stufen:
    - numerische, verbale, grafische, symbolische Verankerungen
    - jede einzelne Stufe oder nur Enden der Skala
    - Benennung jeder einzelnen Stufe führt zu Verbesserungen der Reliabilität und Validität (Krosnik)

Problem des Skalenniveaus bei Ratingsskalen

Problem des Skalenniveaus bei Ratingskalen:
- Frage, ob mit mehrstufigen Ratingformaten metrisches Skalenniveau erreicht werden kann:
  - kann für Analogskala unterstellt werden
  - streng genommen erreichen Ratingskalen nur Ordinalniveau
  - vertretbar ist Unterstellung einer Intervallskala umso eher:
    - je mehr Skalenstufen pro Item vorgegeben sind
    - je mehr Items zu einem Testwert aggregiert werden
    - je gleichmäßiger die Abstände zwischen den Skalenstufen von VPn empfunden werden:
      - eher problematisch (unterstellt lineare Veränderungen zw. den Stufen)
      - eher günstig: nie – selten – gelegentlich – oft – immer
  - asymmetrische Abstufungen:
    - können gewollt sein, um bei seltenen oder sozial erwünschten Merkmalen in solchen Bereichen der Skala besser differenzieren zu können, in denen sich Antworten sonst häufen würden
Anfälligkeit für Antworttendenzen:
- soziale Erwünschtheit
- Akquieszenz = Tendenz zur Zustimmung
- Ablehnung von Aussagen
- Bevorzugung bestimmter Skalenbereiche (Mitte, Extreme) > betrifft speziell Ratingskalen
- mögliche Ursache: unterschiedliche Interpretation durch VPn
- Ratingskalen haben sich vielfach bewährt

4 Urteilsdimensionen bei Ratingskalen (Rohrmann)

Häufigkeitsskalen: nie selten gelegentlich oft immer
Intensität: gar nicht wenig mittelmäßig überwiegend völlig
Wahrscheinlichkeit: keinesfalls wahrscheinlich nicht vielleicht ziemlich wahrscheinlich ganz sicher
Bewertung: trifft gar nicht zu trifft wenig zu trifft teils-teils zu trifft ziemlich zu trifft völlig zu

Antwortformat dichotome Auswahlaufgaben

zwei Antwortalternativen:
- Leistungstestaufgaben: richtig – falsch
- Persönlichkeitstests: ja – nein
Einfachheit der Auswertung
hoher Anteil richtiger Zufallslösungen > 50 %
deutlicher Informationsverlust gegenüber mehrstufigen Ratingskalen
damit mehr Items = längere Tests notwendig
Argumente sprechen eher gegen Verwendung
Vorzug: Erleichterung der Anwendung der PTT

Antwortformat Mehrfachwahlaufgaben

mehr als zwei, am häufigsten vier bis fünf Antwortalternativen
verschiedene Formen
- Verwendung in Leistungs- und Persönlichkeitstests formal sehr ähnlich, aber inhaltlich unterschiedlich
- Leistungstests: Multiple-Choice-Format:
  - eine oder mehrere richtige Lösungen > sollte bekannt sein
  - eine Lösung: Antwortvorgaben müssen disjunkt sein (also keine inhaltlichen schnittmengen)
  - bei Reihung der Antworten dürfen „Strategien“ der VPn nicht greifen > keine Systematik
  - Stellung der richtigen Lösungen: ausgewogen, aber unsystematisch
  - falsche Antwortalternativen: Distraktoren
  - Schwierigkeit hängt wesentlich von Wahl der Distraktoren ab
- Persönlichkeits- und Einstellungstests: Forced-Choice-Items:
  - sozial erwünschtem Antwortverhalten soll entgegen gewirkt werden
  - Antwortalternativen mit ähnlicher Bevorzugung sollen zusammen gruppiert werden
  - auch: Auswahl der am meisten oder am wenigsten zutreffenden Antwort oder Erzeugung Rangreihenfolge
  - Q-Sort-Technik
  - Aufwand der Konstruktion erheblich
  - bei Personalauswahlverfahren eher mit extrem wechselndem Erfolg
  - ipsative Messung:
    - Antwortalternativen werden nicht unterschiedlichen Graden der Ausprägung eines Merkmals zugeordnet, sondern verschiedenen Merkmalen in mehrdimensionalen Tests
    - fehlende stochastische Unabhängigkeit > wer sich für A entscheidet, entscheidet sich damit auch gegen D
    - künstliche negative Korrelationen
    - problematisch bei Persönlichkeitsmerkmalen, weniger bei Leistungstests

Anwortformat Sortier- oder Ordnungsaufgaben

Zuordnungsaufgaben:
- Zuordnung von Symbolen oder Begriffen zu anderen Symbolen oder Kategorien, dass sinnvolle Paarung entsteht
- eigenen sich besonders zur Abfrage von Wissen und Kenntnissen
- durch sukzessiven Ausschluss von Antwortmöglichkeiten erhöht sich Ratewahrscheinlichkeit und Wahrscheinlichkeit von Folgefehlern
- mindestens eine ganz falsche Antwort sollte enthalten sein
- Umordnungsaufgaben
- vorgegebene Fragmente müssen der Reihenfolge entsprechend sortiert werden
- auch mit nonverbalem Material möglich > Kinder

Reihenfolgeeffekte bei der Zusammenstellung von Items

Reihenfolgeeffekte: Stellung des Items innerhalb des Tests kann Antwort auf nachfolgende Items beeinflussen:
- Assimilationseffekt: positive Verzerrung
- Kontrasteffekt: negative Verzerrung
Kontexteffekte können auch durch Zusammenstellung von Antwortalternativen innerhalb eines Items auftreten > besonders bei Mehrfachwahlaufgaben
Maßnahmen gegen systematische Verzerrung
- Reihenfolgeeffekte > zufällige Reihung
- überhöhte Korrelation bei mehrdimensionalen Tests > entfernte Platzierung zusammenhängender Items
  - widerspricht aber Zufallsreihung, da systematische Gruppierung notwendig
bei Leistungstests mit Powerkomponenten in der Regel aufsteigende Schwierigkeit, um Probanden nicht so schnell zu entmutigen und Zahl der bearbeiteten Aufgaben zu maximieren

Pretes

Prüfung der Items auf Verständlichkeit und Eindeutigkeit
Erfassung möglicher Probleme mit der Akzeptanz durch Fragen, die als invasiv, belastend, inakzeptabel empfunden wurden
kleine Stichprobe ausreichend
empfehlenswert: qualitative Erhebung mit der Möglichkeit, Kommentare abzugeben

quantitative Prüfung der Vorform des Tests

Prüfung empirischer Kennwerte für einzelne Items
Kennwerte werden genutzt, um Unterschiede in Messeigenschaften einzelner Items zu identifizieren und zur Kürzung der Vorform des Tests bzw. zur Eliminierung weniger gut geeigneter Aufgaben zu nutzen
KTT:
- Itemschwierigkeit
- Itemtrennschärfe
PTT:
- Statistiken zur Prüfung der Modellverträglichkeit einzelner Items sowie des ganzen Modells stehen zur Verfügung
- innerhalb PTT Trennung der Analyse einzelner Items von Beurteilung des gesamten Tests logisch schwer zu trennen

Itemanalyse nach Klassischer Testtheorie (KTT)

SPSS-Beispiel: Big Five Inventory (BFI):

44 Items
7-10 je Persönlichkeitsdimension (Neurotizismus (N), Extraversion (E), Offenheit für Erfahrungen (O), Verträglichkeit (A), Gewissenhaftigkeit (C))
fünfstufige bipolare Ratingskala
kurze Satzfragmente als Antwort
rational konstruierter Test zur Messung eines faktorenanalytisch konstruierten Tests zur Messung eines faktorenanalytisch begründeten Persönlichkeitsmodells

Rekodierung invertierter Item

sinnvoll, damit sämtliche Items gleich gepolt sind
TRANSFORMIEREN > UMKODIEREN IN DIESELBEN [ODER ANDERE] VARIABLEN
- invertierte (= umgepolte) Items mit i am Ende gekennzeichnet > in „NUMERISCHE VARIABLEN“ verschieben
- „ALTE UND NEUE WERTE“ > Spezifizierung, z. B. 5 > 1

Wählen Sie zum Ausführen von SPSS-Befehlen stets die Option EINFÜGEN, mit der
die jeweilige Anweisung zunächst in eine Syntax-Datei geschrieben und erst dann ausgeführt
wird > mit Befehl OK wird die jeweilige Berechnung unmittelbar ausgeführt und das Ergebnis im Output angezeigt

ANALYSIEREN > DESKRIPTIVE STATISTIKEN > DESKRIPTIVE STATISTIK
- in OPTIONEN Auswahl von Kurtosis (Exzess) und Schiefe
ANALYSIEREN > DESKRIPTIVE STATISTIKEN > EXPLORATIVE DATENANALYSE > DIAGRAMME
- Abruf von Tests auf Normalverteilung und von Histrogrammen
Auswertung deskriptive Statistik (siehe Grafik)

Schiefe und Exzess sollten nicht den absoluten Wert 1 überschreiten > wird als kritisch für Anwendung von Strukturgleichungsmodellen gesehen
bei Rückweisung der Annahme der Normalverteilung über Kolmogorov-Smirnov-Test kann Berechnung der Korrelationen einschließlich Faktorenanalyse erschwert sein

Itemschwierigkeitsindex ohne Korrektur

bei vorliegenden Ratingskalen bilden Mittelwerte Grundlagen für Berechnung
einfachste Form: Itemschwierigkeit = prozentualer Anteil der richtigen Lösungen (richtigen Zustimmungen bei ja / nein) an allen Lösungen eines Items innerhalb einer Stichprobe

P = NR / N * 100 (siehe Grafik)

NR = Anzahl der Probanden, die die Aufgabe richtig (im Sinne des Aufgabenkriteriums) gelöst haben
N = Anzahl der Probanden
P = Schwierigkeitsindex ohne Korrektur

- Index steigt mit Anzahl der richtigen Lösungen / sinkt bei falschen Lösungen

- entspricht bei Persönlichkeitstests hoher Ausprägung des Konstrukts

Schwierigkeitsindex mit Zufallskorrektur

bei Leistungstests mit Mehrfachwahlformat entsteht gewisser Prozentsatz richtiger Lösungen durch Zufall / Raten
- Ratewahrscheinlichkeit bei 2 Lösungen = 50 %
- bei mehr Lösungen geringere Wahrscheinlichkeit
- Zufallsfaktor soll bei dichotomen und Mehrfachwahlaufgaben korrigiert werden
- Formel siehe Grafik
- NF = Anzahl der Probanden, die die Aufgabe falsch (im Sinne des Aufgabenkriteriums) gelöst haben
- m = Anzahl der Wahlmöglichkeiten (bei dichotomen Aufgaben mit m=2 entfällt der Ausdruck m-1)
- PZK = Schwierigkeitsindex mit Zufallskorrektur
- N = Anzahl der Probanden
bei dichotomer Aufgabe: Anteil richtiger Lösungen von 75 % entspricht korrigierter Itemschwierigkeit von 50 %
bei fünf Optionen einer MC-Aufgabe: 60 % korrigierte Wahrscheinlichkeit

Schwierigkeitsindex mit Inanspruchnahmekorrektur

bei zeitbegrenzten Leistungstests, bei denen nicht alle Items von allen Probanden bearbeitet werden können bzw. bei hohem Anteil fehlender Werte
Benutzung von NB = Anzahl derjenigen, die das Item überhaupt bearbeitet haben, statt N im Nenner

Transformation und Schwierigkeitsanalyse bei Ratingskalen

Antwortskala muss so transformiert werden, dass theoretisches Minimum den Wert Null annimmt
Schwierigkeit berechnet sich nach Formel ohne Korrektur, aber
- für Anzahl richtiger Lösungen ist der transformierte Mittelwert Mi des Items i einzusetzen
- für Anzahl der Probanden ist der transformierte Maximalwert xmax des Items zu verwenden

Bedeutung der Itemschwierigkeit

Ziel eines Tests: Unterscheidung von Personen mit hoher Ausprägung des Merkmals von denen mit geringer Ausprägung
Zahl der theoretisch möglichen Unterscheidungen = Informationshaltigkeit des Items hängt direkt von dessen Schwierigkeit ab
theoretisches Maximum wird genau bei mittlerer Schwierigkeit erreicht > bei 100 Personen:
- 50*50 = 2.500 Unterscheidungen
- 10*90 = 900 Unterscheidungen
- 1*99 = 99 Unterscheidungen
Item, dass alle lösen oder von niemandem gelöst wird (0*100), enthält keinerlei empirische Information > wertlos
Zusammenhang zwischen Itemschwierigkeit und Informationsgehalt eines Items ist umgekehrt u-förmig mit Maximum in Mitte
- deshalb Bevorzugung von Items mittlerer Schwierigkeit
- manchmal bereits von vornherein Ausschluss von Items mit extremen Schwierigkeiten
unterschiedliche Faustregeln (z. B. jenseits von 10 / 90) zum Ausschluss von Items problematisch
- Lösungswahrscheinlichkeit eines Items hängt von individueller Ausprägung des gemessenen Merkmals ab > Gruppe der Hochbegabten löst „immer“ alle Aufgaben mittlerer Schwierigkeit > hier wäre dann ggf. keine Differenzierung mehr möglich
- Schwierigkeit sagt nur etwas über maximale Information im Item aus, nicht, ob wie es Zielkonstrukt erfasst
- inhaltlich adäquate Items mit relativ extremen Schwierigkeiten können Test verbessern
- Probleme, wenn Test vorrangig aus Items mit extremen Schwierigkeiten bestehen
  - Einschränkungen hinsichtlich anderer Kennwerte und Gütekriterien: Itemhomogenität, Trennschärfe, Reliabilität, Validität
  - Probleme der Korrelation, wenn viele linksschiefe und viele rechtsschiefe Items kombiniert werden
- Nachteil ist in praktischer Testkonstruktion abzuwägen gegen Notwendigkeit der vollständigen Testabdeckung des Merkmalsbereichs
- Beibehaltung von Schwierigkeiten jenseits 5 / 95 % selten zu rechtfertigen

Trennschärfeanalyse

Skala = mehrere aufsummierte oder gemittelte Items, die inhaltlich dieselbe Eigenschaft oder Fähigkeit erfassen sollen
Trennschärfe ist in KTT wichtigster Indikator dafür, wie gut jedes einzelne Item das zugrunde liegende Merkmal abbildet

M6a Kurs 03421 Psychologie FernUniversität Hagen

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google