M6a Kurs 03421 Psychologie FernUniversität Hagen

Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.

Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.


Fichier Détails

Cartes-fiches 219
Utilisateurs 64
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 14.01.2015 / 27.02.2025
Lien de web
https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen
Intégrer
<iframe src="https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Entwicklungsschritte einer Testkonstruktion

  1. Abgrenzung des Merkmal- und Geltungsbereichs
  2. Auswahl der grundsätzlichen Vorgehensweise bei der Testentwicklung
  3. Generierung des Itempools:
    • Festlegungen zur Formulierung der Fragen
    • Festlegungen zum Format der Antwortmöglichkeiten

Merkmals- und Geltungsbereich

- Klärung zweier Fragen am Anfang:

  1. Merkmalsbereich: Was soll der Test messen?
  • richtet sich auf Konstrukt(e), die erfasst werden sollen

         2. Geltungsbereich: Wo, bei wem und wofür soll der Test eingesetzt werden?

  • richtet sich auf Zielgruppe, Kontext und Zweck der Anwendung

- zwischen Merkmalsbereich und Geltungsbereich treten Wechselwirkungen und Implikationen auf

- problematisch: Abgrenzung des Merkmalsbereichs / Konstrukts

  • Literaturrecherche
    • heterogene Konstrukte
    • offene Widersprüche
    • auch verwandte Schlagwörter einbeziehen
    • ggf. Umdefinieren/ Einschränkung Merkmalsbereich
  • weitere Hilfsmittel zur Abgrenzung:
    • explorative Verfahren der Datenerhebung, z. B. qualitative Interviews mit Experten
    • strukturierte Varianten der Merkmalsabgrenzung
      • Facettentheorie:
        •  Methode zur Systematisierung wissenschaftlicher Fragestellungen
        • Werkzeuge:
          • zur vollständigen Eingrenzung eines Merkmalsbereichs
          • zur Zergliederung in einzelne Teilmerkmale (Fa-cetten) und deren Ausprägungen bzw. Typen
          • zur Darstellung der Beziehungen zwischen den Facetten
          • zur empirischen Skalierung
      • act frequency approach (AFA)
      • critical incident technique (CIT) (Methode der kritischen Ereignisse)
    • bei Messung psychologischer Konstrukte: Arbeitsdefinition
      • bei AFA und CIT Definition und Itemformulierung in einem Schritt
      • sonst meist Arbeitsdefinition als Grundlage der Formulierung
        • kann auch aus überschaubarer Liste konkurrierender Definitionen bestehen
    • bei kriterienorientierten Tests
      • Merkmalsbereich ist durch Inhalt und Umfang der Lernziele definiert
    • Tests zur Vorhersage bestimmter Verhaltensbereiche:
      • definitorische Eingrenzung des zu prognostizierenden Verhaltens (z.B. mit Hilfe arbeits- und anforderungsanalytischer Verfahren)

Eingrenzung des Geltungsbereiches

  • häufig eingeschränkt durch Auftraggeber
  • Einhaltung ethischer Richtlinien
  • Ansprüche an empirische Prüfung und Normierung steigen, je breiter Anwendungsbereich und Zielgruppe definiert sind
  • empirische Fundierung sollte in Entwicklungsphase angestrebtem Geltungsbereich entsprechen > Entscheidung über Geltungsbereich hat Einfluss auf Planung der späteren Entwicklungsschritte

Festlegung des generellen Konstruktprinzips

  • grundlegende Konstruktionsprinzipien:
    • rationale = deduktive = theoriegeleitete Konstruktion
    • externale = empirische = kriteriumsorientierte Strategie
    • internales = induktives = faktorenanalytisches Vorgehen
    • typologisierender Ansatz (selten)
    • Prototypenansatz (selten)
  •  jeweils viele Varianten, können auch prinzipienübergreifend kombiniert werden

rationale Testkonstruktion

  1. Ausgangspunkt: operationale theoretische Definition des Zielkonstrukts:
    • daraus deduktive Ableitung spezifischer Indikatoren, die sich direkt beobachten bzw. erfragen lassen
    • auch theoretische Auswahl aus vorhandenem Itempool möglich
    • Umsetzung von theoretischer Definition in Messvorschrift/ konkrete Items nicht ohne Intuition/ subjektive Bewertung möglich (oder aufwändige Techniken: AFA, CIT)
    • Übergänge zwischen rationaler und erfahrungsgeleiteter Testkonstruktion fließend

       2. hierarchisch strukturiertes Konstrukt (mehrdimensional):

  • Definition soll alle Subkonstrukte/ Facetten einschließen
  • Beispiel: Berliner Intelligenzstruktur-Test (BIS-Test) (Jäger et al., 1997):
    • hierarchische Struktur der Intelligenz
    • gemeinsames Element auf höherer Ebene: generelle Intelligenz
    • jede der im Modell genannten sieben speziellen Fähigkeiten lässt sich einem der Modi, Inhalte und Operationen zuordnen
    • Intelligenzleistungen entstehen bimodal = Kombination mindestens einer inhaltsgebundenen und einer operationalen Komponente
    • Subtests erfassen Kombinationen

      3. homogenes Konstrukt:

  • einfacher
  • Beispiel: Retrospective Behavioral Self-Control Scale (RBS, Marcus, 2003):
    • beruht auf Definition von Selbstkontrolle in der kriminologischen Theorie von Gottfredson und Hirschi (1990)
  • theoriegeleitete Skala wird oft durch empirische Itemanalysen verkürzt (Items werden eliminiert)
  • Notwendigkeit der Erhebung empirischer Daten spätestens bei Validierung rational konstruierter Skalen

externale Testkonstruktion

  • empirische Daten stehen bereits in frühen Stadien der Testkonstruktion im Vordergrund
  • Vorliegen verschiedener Gruppen üblich, aber nicht zwingend erforderlich (teilweise technische Voraussetzung der Tests)
  • typische Anwendungsfälle:
    • Unterscheidung Vorliegen/ Nichtvorliegen von Persönlichkeitseigenschaften
      • Items zur Diskriminierung zwischen diesen Gruppen werden aufgenommen
    • bei kontinuierlichen Merkmalen (z. B. Berufserfolg) auch Konstruktion künstlicher Gruppen (Extremgruppen): „Höchstleister“, „Niedrigleister“
  • Extremfall: „blinder Empirizismus“ = „dust bowl empiricism“ > kompletter Verzicht auf inhaltliche Erwägungen
    • in diesem Sinne ist externale Testkonstruktion kriterienorientiert (nicht mit kriterienorientierten Tests zu verwechseln)
  • Vorgehen analog zum regressionsanalytischen Ansatz:
    • Grundproblem besteht in atheoretischer Anpassung an Stichprobe
    • Folgen:
      • inhaltlich schwer interpretierbare Skalen
      • große und repräsentative Stichproben notwendig
      • unabhängige Replikation = Kreuzvalidierung notwendig
    • Vorteile:
      • geringes theoretisches Vorwissen notwendig
      • gewisse kriterienbezogene Validität > praktischer Nutzen
  • Beispiele external konstruierter Tests:
    • Minnesota Multiphasic Personality Inventory (dt. Hathaway et al., 2000) > klinisch:
      • Konstruktion nach Kontrastgruppenmethode
      • Auswahl von Items, die zwischen psychisch unaufälligen und schizophrenen, manischen … Gruppen unterscheiden
    • California Psychological Inventory (CPI, Gough & Bradley, 1996):
      • analoge Konstruktion
      • bezieht sich auf Normalbereich der Persönlichkeit

internale Testkonstruktion

  • greift wie bei externaler Konstruktion auf empirische Informationen zurück
  • beziehen sich nicht auf Außenkriterium (z. B. Unterscheidung Gruppen), sondern auf Binnenstruktur Test:
    • Generierung breit angelegter Itempool
    • anschließend Untersuchung der Daten hinsichtlich ihrer Korrelation zwischen den Items > explorative Varianten der Faktorenanalyse
    • Ergebnis: mehrdimensionale Inventare, deren Subskalen jeweils homogene Konstrukte messen, insgesamt aber breiten und heterogenen Merkmalsbereich abdecken
  • Verfahren ist empirisch, da über Binnenstruktur keine theoretischen Vorannahmen getroffen werden, sondern diese aus Daten abgeleitet werden
  • Ergebnisse bilden nicht selten Grundlage späterer theoretischer Modelle durch Induktion aus spezifischen Daten auf allgemeines Modell
  • über Abgrenzung des Merkmalsbereichs nach außen sollten theoretische Vorstellungen existieren
  • Beispiele:
    • Primärfaktorenmodell der Intelligenz (Thurstone & Thurstone, 1941) > auf dem beruhen zahlreiche Intelligenztests
    • faktorenanalytisch begründete Modelle und entsprechende Inventare im Bereich der Persönlichkeitseigenschaften, u. a. die von Guilford, Eysenck, Varianten des Fünf-Faktoren-Modells

typologisierender Ansatz

  • selten
  • Verbindung von externaler und internaler Strategie:
    • Identifikation von Gruppen von Personen oder Objekten auf der Grundlage empirischer Informationen
  • dominierendes statistisches Verfahren: Clusteranalyse:
    • Zusammenfassung von Personen zu Clustern, die sich durch ähnliche Konfiguration von Ausprägungen auf mehreren Merkmalen auszeichnen
    • häufig Reanalyse internal konstruierter Skalen (also keine Test-Neukonstruktion)
    • gegenüber der Verwendung von Dimensionen mit Informations- und damit Validitätsverlust verbunden
    • Beispiel: Myers-Briggs-Type Indikator (MBTI) (Myers et al., 1998) bei Personalberatern

Prototypenansatz

  • Ähnlichkeit zu einem idealtypisch eingeschätzten Vertreter eines Typus oder einer Verhaltensweise als kognitiver Ankerreiz für Einschätzung anderer Objekte vorgegeben
  • Gefahr durch Stereotypisierung
  • Beispiel: Act frequency approach (AFA) (Buss & Craik, 1983)
  • Vergleichende Bewertung der drei Hauptprinzipien:
    • kaum systematische Validitätsvorteile, z.T. aber leichte Vorteile der rationalen sowie Nachteile der internalen Strategie bei der kriterienbezogenen Validität
    • Wahl der am besten geeigneten Strategie sollte von Vorkenntnissen über Merkmalsbereich und Geltungsbereich abhängen (so rational wie möglich)
    • Vorzug der rationalen Methode: theoretische Fundierung und Interpretierbarkeit der Testergebnisse > dies oft bei externaler Strategie nicht gegeben, die aber andererseits dafür den geringsten Voraussetzungen an den theoretischen Kenntnisstand unterliegt

Merkmale unterschiedlicher Konstruktionsprinzipien für Tests

> siehe Grafik

Kategorien von Persönlichkeitsitems (Angleitner et al., 1986)

1. Beschreibung von Reaktionen
            a. offene, beobachtbare Handlungen (Ich gehe oft auf Partys)
            b. verborgene, interne Handlungen (Ich denke viel über mich selbst nach)
            c. Symptome, physische Reaktionen (Ich schwitze viel)
2. Eigenschaftszuschreibungen (Ich habe gute schauspielerische Fähigkeiten)
3. Wünsche und Interessen (Manchmal würde ich am liebsten laut fluchen)
4. Biografische Fakten (Ich hatte in meiner Jugend schonmal Ärger mit dem Gesetz)
5. Einstellungen und Überzeugungen (Ich glaube Gesetze sollte mit aller Härte durchgesetzt werden)
6. Reaktionen anderer auf die eigene Person (Ich stehe auf Partys selten im Mittelpunkt)

            > hier könnten auch Eigenschaftszuschreibungen durch andere ergänzt werden (Meine Freunde halten       

               mich für etwas schüchtern)
7. Bizarre Items (Jemand versucht mich zu vergiften)

Generierung eines Itempools

  • Unterscheidungen:
    • inhaltliche Aspekte = Was frage ich
      • objektive Informationen = Leistungstests
      • subjektive Informationen:
        • Selbsteinschätzung
        • Fremdeinschätzung
    • formale Aspekte = Wie frage ich
      • sprachliche Aspekte der Itemformulierung
      • Festlegung des Antwortformats
  • Ordnungsschemata sind meist nach formalen Aspekten ausgerichtet und häufig auf Aufgaben in Fähigkeits- und Aufgabentests zugeschnitten
  • nicht seltene Quelle: Auswahl aus vorhandenem Itempool (z.B. MMPI o. International Personality Item Pool (IPIP))
  • sonst: Generierung Pool neuer Aufgaben:
    • weitgehend unsystematisch – geleitet von Intuition und Geschick des Testautors (z.B. von dessen Einfühlungsvermögen in die Testperson)
      • sehr wesentlich: Qualität der Definition des Merkmalsbereichs
        • jedes Item sollte innerhalb des Merkmalsbereichs liegen
        • Itemmenge sollte insgesamt diesen Bereich repräsentativ abdecken
      • Empfehlung: Aufstellung Regelsystem für spezifische Testentwicklung
        • Regeln für inhaltliche Aspekte
        • Regeln für formale Aspekte
    • Techniken zur systematischen Unterstützung der Generierung von Items
      • helfen gleichzeitig bei der Abgrenzung des Merkmalsbereichs:
        • art frequency approach (AFA) (Buss & Craik, 1983) = Ansatz der Verhaltenshäufigkeiten
        • critical incident technique (CIT) (Flanagan, 1954) = Methode der kritischen Ereignisse

Art frequency approach (AFA) (Buss & Craik, 1983)

  • Ansatz der Verhaltenshäufigkeiten
  • Metatheorie der Persönlichkeit
  • Dispositionen werden als kognitive Theorien aufgefasst, in denen Verhaltensweisen nach der Häufigkeit ihres Auftretens ohne eigentlichen Erklärungswert zusammengefasst werden
  • Handlungen sind für bestimmte Eigenschaft besonders zentral = prototypisch oder eher peripher
  • AFA stellt Methodologie zur Aufdeckung der Unterschiede und zur Umsetzung in ein Messinstrument zur Verfügung
  • Vorgehensweise:
    • Vpn (Laien) erhalten Eigenschaft als Vorgabe (z.B. Dominanz)
    • sollen sich bekannte Personen mit hoher Ausprägung dieser Eigenschaft vorstellen
    • dazu Aufschreiben konkreter passender Eigenschaften, die sie beobachtet haben
    • entstandene Itemsammlung wird von weiterer Teilnehmergruppe auf Prototypizität für Eigenschaft eingeschätzt
    • besonders passende Items werden beibehalten und in Ich-Form übertragen > Test zur Selbsteinschätzung möglich (prototypisch für Dominanz:"Ich verbat ihm/ ihr den Raum zu verlassen." o. "Ich gab Ratschläge, ohne darum gebeten worden zu sein.")
  • Bewertung:
    • empirisch gute Beurteilungen
    • AFA erlaubt Generierung/ Zuordnung von Items zu Skalen bzw. Verhalten zu Eigenschaften unabhängig von Intuition des Testautors
    • psychometrisches Problem bei Umsetzung in Selbstberichte im Befund von sog. Aktivitätsfaktoren (manche Vpn neigen generell häufiger als andere dazu anzugeben, dass sie Verhalten jeglicher Art gezeigt haben (o. sie sind tatsächlich generell aktiver), weshalb unterschiedliche Eigenschaften in nach AFA konstruierten Tests tendenziell höher miteinander korrelieren als bei konventionell konstruierten Persönlichkeitsinventaren)

Critical incident technique (CIT) (Flanagan, 1954)

  • Methode der kritischen Ereignisse
  • stammt aus Organisationspsychologie als Verfahren der beruflichen Leistungsbeurteilung
  • Ansatzpunkt: gute oder unbefriedigende Leistungen schlagen sich in konkreten erfolgskritischen Ereignissen nieder
  • kritische Ereignisse werden durch unabhängige Befragungen generiert
  • Teilnehmer in der Regel Stelleninhaber oder andere Experten
  • umfangreicher als „acts“ > schließen Vor- und Nachgeschichte des kritischen Ereignisses ein
  • Umsetzung in Erhebungsinstrument erfolgt wieder mittels un-abhängiger Einschätzung der Erfolgswirksamkeit
  • kurze Zusammenfassungen der kritischen Ereignisse dienen als Anker für unterschiedliche Performanz
  • Bewertung:
    • in Bezug auf Validität zur Vorhersage beruflicher Leistung vielfach empirisch bewährt
    • Hilfsmittel zu anforderungsanalytischen Unterstützung von Verfahren mit Ziel der Maximierung der kriterienbezogenen Validität
    • Abgrenzung des relevanten Merkmalsbereichs auch dann möglich, wenn dies mangels Daten mit empirischen Mitteln der externalen Testkonstruktion nicht möglich ist
    • Entwicklungsaufwand erheblich
    • Verhaltensbeispiele für mittlere Leistung schwer zu finden
    • Sammlung kritischer Ereignisse z. T. nicht homogenes und interpretierbares Konstrukt

Item

besteht aus:

  1. Itemstamm = eigentliche Frage, Aufgabe, Reiz
  2. Antwortformat bzw. mögliche Reaktionen

Richtlinien zur Formulierung von Itemstämmen

  1. Förderung der Verständlichkeit
  2. Eindeutigkeit der Formulierung
  3. Vermeidung der Bevorzugung bestimmter Antwortalternativen

Beispiele für Fomrulierungsrichtlinien

  • Verständlichkeit:
    • meide (auch versteckte) doppelte Verneinungen (Ich bin nicht oft traurig > trifft zu        trifft nicht zu)
    • meide Ausdrücke, die nicht von allen Teilnehmern verstanden werden
    • drücke den Sachverhalt so kurz wie möglich und so lang wie nötig aus
  • Eindeutigkeit:
    • lege jedem Item nur einen sachlichen Gedanken zugrunde
    • vermeide starke Verallgemeinerungen
    • verwende nur eindeutige zeitliche und situative Bezüge
  • Meidung von Antworttendenzen:
  • meide (unnötig) suggestive und (unnötig) wertende Formulierungen
  • meide Gemeinplätze (Items, die von allen Teilnehmern gleich beantwortet werden würden)

Antwortformat

  • gebundene Beantwortung:
    • konkrete Lösungsmöglichkeiten oder Antwortalternativen vorgegeben
  • offene Beantwortung:
    • nicht oder nur wenig durch Antwortvorgaben eingeschränkt

8 spezifische Aufgabengruppen (nach Jonkisz und Moosbrugger, 2007)

Aufgabentypen:

  1. Aufgaben mit freiem Anwortformat:
    1. Kurzaufsatzaufgaben
    2. Ergänzungsaufgaben
  2. Aufgaben mit gebundenem Antwortformat:
    1. Ordnungsaufgaben (Zuordnungsaufgaben; Umordnungsaufgaben)
    2. Auswahlaufgaben (dichotome Aufgaben; Mehrfachwahlaufgaben)
    3. Beurteilungsaufgaben (Analogskalaaufgaben; Ratingskalaaufgaben)
  3. Aufgaben mit atypischem Antwortformat

Items mit freiem Antwortformat

  • eher bei Fähigkeits- und Leistungstests > endliche Zahl von objektiv richtigen Lösungen
    • Ausnahme: projektive Verfahren (freie Assoziation)
  • Teilstrukturierung: Teil der Lösung ist vorgegeben (z.B. Lückentext)
  • Aufgabentypen:
    • Ergänzungsaufgaben (z.B. in welchem Land liegt die Stadt Lima?)
    • Kurzaufsatz mit völlig freiem Antwortformat (z.B. wie kommen Sommer und Winter zustande?)
  • Bewertung offener Antwortformate:
    • Zufallslösungen kaum möglich, ggf. Lösungsweg erkennbar
    • qualitative Auswertung kann vorgenommen werden
    • inhaltlich besteht Möglichkeit der Konstruktion komplexer Aufgaben
    • teilweise unerlässlich bei bestimmten Aufgabenstellungen
      • Erfassung stilistischer Begabung
      • Gedächtnistests zur Reproduktion von Wissen
  • Nachteile:
    • fehlende Standardisierung der Antworten
    • Problem erschöpfender Musterlösungen
    • ggf. Folgefehler bei Lückentexten > mangelnde stochastische Unabhängigkeit der Items
    • besonders bei Kurzaufsätzen Problem des Vergleichs der Antworten verschiedener Teilnehmer > Einfluss subjektiver Elemente
    • ggf. Zusatzausbildung notwendig für Auswertung projektiver Verfahren
    • großer Auswertungsaufwand

Items mit gebundenem Antwortformat

  • Antwortmöglichkeiten vollständig vorgegeben
  • schnelle, meist automatische Auswertung möglich
  • kein Interpretationsspielraum > auswertungsobjektiv
  • Antwortvorgaben können allerdings durch Teilnehmer unterschiedlich interpretiert werden

Antwortformate

  1. Ratingskala/ Einstufungsskala
  2. dichotome Auswahlaufgaben
  3. Mehrfachwahlaufgaben
  4. Sortier- oder Ordnungsaufgaben

Antwortformat Ratingskala

  • in Persönlichkeits- und Einstellungsforschung häufigstes AF
  • mehr als zwei abgestufte Antwortkategorien (z.B. von "sehr gut" bis "sehr schlecht")
  • dadurch quantitative Beurteilung einer Merkmalsausprägung
  • Gestaltungselemente:
    • Differenziertheit der Abstufung (dreistufig, vierstufig oder zehnstufig?)
      • zu wenige Stufen = Verzicht auf Information und damit auf psychometrische Güte
      • zu viele Stufen = Überforderung > Verminderung der Gütekriterien
      • psychometrisches Optimum: 5-9
      • Sonderfall: stufenlos einstellbare Analogskalen
      • ungerade Zahl: als neutral wahrgenommene Mittelkategorie, welche von Vpn manchmal als Ausweichkategorie missbraucht wird
      • gerade Zahl:
        • Zwang zur Entscheidung
        • ggf. Verringerung der Akzeptanz
        • Verwendung echter Ausweichkategorie („weiß nicht“) > Auswertungsprobleme durch fehlende Werte
      • Polarität der Items:
        • unipolar (mit logischem Minimum; z.B. "nie" als definierter Nullpunkt bei Häufigkeitsskalen)
        • bipolar (Extremausprägungen sind durch gegensätzliche Begriffe gekennzeichnet)
      • Verankerung der Stufen:
        • numerische, verbale, grafische, symbolische Verankerungen
        • jede einzelne Stufe oder nur Enden der Skala
        • Benennung jeder einzelnen Stufe führt zu Verbesserungen der Reliabilität und Validität (Krosnik)

Antwortformat Ratingskala

  • in Persönlichkeits- und Einstellungsforschung häufigstes AF
  • mehr als zwei abgestufte Antwortkategorien (z.B. von "sehr gut" bis "sehr schlecht")
  • dadurch quantitative Beurteilung einer Merkmalsausprägung
  • Gestaltungselemente:
    • Differenziertheit der Abstufung (dreistufig, vierstufig oder zehnstufig?)
      • zu wenige Stufen = Verzicht auf Information und damit auf psychometrische Güte
      • zu viele Stufen = Überforderung > Verminderung der Gütekriterien
      • psychometrisches Optimum: 5-9
      • Sonderfall: stufenlos einstellbare Analogskalen
      • ungerade Zahl: als neutral wahrgenommene Mittelkategorie, welche von Vpn manchmal als Ausweichkategorie missbraucht wird
      • gerade Zahl:
        • Zwang zur Entscheidung
        • ggf. Verringerung der Akzeptanz
        • Verwendung echter Ausweichkategorie („weiß nicht“) > Auswertungsprobleme durch fehlende Werte
      • Polarität der Items:
        • unipolar (mit logischem Minimum; z.B. "nie" als definierter Nullpunkt bei Häufigkeitsskalen)
        • bipolar (Extremausprägungen sind durch gegensätzliche Begriffe gekennzeichnet)
      • Verankerung der Stufen:
        • numerische, verbale, grafische, symbolische Verankerungen
        • jede einzelne Stufe oder nur Enden der Skala
        • Benennung jeder einzelnen Stufe führt zu Verbesserungen der Reliabilität und Validität (Krosnik)

Problem des Skalenniveaus bei Ratingsskalen

  • Problem des Skalenniveaus bei Ratingskalen:
    • Frage, ob mit mehrstufigen Ratingformaten metrisches Skalenniveau erreicht werden kann:
      • kann für Analogskala unterstellt werden
      • streng genommen erreichen Ratingskalen nur Ordinalniveau
      • vertretbar ist Unterstellung einer Intervallskala umso eher:
        • je mehr Skalenstufen pro Item vorgegeben sind
        • je mehr Items zu einem Testwert aggregiert werden
        • je gleichmäßiger die Abstände zwischen den Skalenstufen von VPn empfunden werden:
          • eher problematisch (unterstellt lineare Veränderungen zw. den Stufen)
          • eher günstig: nie – selten – gelegentlich – oft – immer
      • asymmetrische Abstufungen:
        • können gewollt sein, um bei seltenen oder sozial erwünschten Merkmalen in solchen Bereichen der Skala besser differenzieren zu können, in denen sich Antworten sonst häufen würden
  • Anfälligkeit für Antworttendenzen:
    • soziale Erwünschtheit
    • Akquieszenz = Tendenz zur Zustimmung
    • Ablehnung von Aussagen
    • Bevorzugung bestimmter Skalenbereiche (Mitte, Extreme) > betrifft speziell Ratingskalen
    • mögliche Ursache: unterschiedliche Interpretation durch VPn
    • Ratingskalen haben sich vielfach bewährt

4 Urteilsdimensionen bei Ratingskalen (Rohrmann)

  1. Häufigkeitsskalen:   nie        selten        gelegentlich        oft        immer
  2. Intensität:   gar nicht        wenig        mittelmäßig        überwiegend        völlig
  3. Wahrscheinlichkeit:   keinesfalls      wahrscheinlich nicht      vielleicht      ziemlich wahrscheinlich      ganz sicher
  4. Bewertung:   trifft gar nicht zu        trifft wenig zu        trifft teils-teils zu        trifft ziemlich zu        trifft völlig zu

Antwortformat dichotome Auswahlaufgaben

  • zwei Antwortalternativen:
    • Leistungstestaufgaben: richtig – falsch
    • Persönlichkeitstests: ja – nein
  • Einfachheit der Auswertung
  • hoher Anteil richtiger Zufallslösungen > 50 %
  • deutlicher Informationsverlust gegenüber mehrstufigen Ratingskalen
  • damit mehr Items = längere Tests notwendig
  • Argumente sprechen eher gegen Verwendung
  • Vorzug: Erleichterung der Anwendung der PTT

Antwortformat Mehrfachwahlaufgaben

  • mehr als zwei, am häufigsten vier bis fünf Antwortalternativen
  • verschiedene Formen
    • Verwendung in Leistungs- und Persönlichkeitstests formal sehr ähnlich, aber inhaltlich unterschiedlich
    • Leistungstests: Multiple-Choice-Format:
      • eine oder mehrere richtige Lösungen > sollte bekannt sein
      • eine Lösung: Antwortvorgaben müssen disjunkt sein (also keine inhaltlichen schnittmengen)
      • bei Reihung der Antworten dürfen „Strategien“ der VPn nicht greifen > keine Systematik
      • Stellung der richtigen Lösungen: ausgewogen, aber unsystematisch
      • falsche Antwortalternativen: Distraktoren
      • Schwierigkeit hängt wesentlich von Wahl der Distraktoren ab
    • Persönlichkeits- und Einstellungstests: Forced-Choice-Items:
      • sozial erwünschtem Antwortverhalten soll entgegen gewirkt werden
      • Antwortalternativen mit ähnlicher Bevorzugung sollen zusammen gruppiert werden
      • auch: Auswahl der am meisten oder am wenigsten zutreffenden Antwort oder Erzeugung Rangreihenfolge
      • Q-Sort-Technik
      • Aufwand der Konstruktion erheblich
      • bei Personalauswahlverfahren eher mit extrem wechselndem Erfolg
      • ipsative Messung:
        • Antwortalternativen werden nicht unterschiedlichen Graden der Ausprägung eines Merkmals zugeordnet, sondern verschiedenen Merkmalen in mehrdimensionalen Tests
        • fehlende stochastische Unabhängigkeit > wer sich für A entscheidet, entscheidet sich damit auch gegen D
        • künstliche negative Korrelationen
        • problematisch bei Persönlichkeitsmerkmalen, weniger bei Leistungstests

Anwortformat Sortier- oder Ordnungsaufgaben

  • Zuordnungsaufgaben:
    • Zuordnung von Symbolen oder Begriffen zu anderen Symbolen oder Kategorien, dass sinnvolle Paarung entsteht
    • eigenen sich besonders zur Abfrage von Wissen und Kenntnissen
    • durch sukzessiven Ausschluss von Antwortmöglichkeiten erhöht sich Ratewahrscheinlichkeit und Wahrscheinlichkeit von Folgefehlern
    • mindestens eine ganz falsche Antwort sollte enthalten sein
    • Umordnungsaufgaben
    • vorgegebene Fragmente müssen der Reihenfolge entsprechend sortiert werden
    • auch mit nonverbalem Material möglich > Kinder

Reihenfolgeeffekte bei der Zusammenstellung von Items

  • Reihenfolgeeffekte: Stellung des Items innerhalb des Tests kann Antwort auf nachfolgende Items beeinflussen:
    • Assimilationseffekt: positive Verzerrung
    • Kontrasteffekt: negative Verzerrung
  • Kontexteffekte können auch durch Zusammenstellung von Antwortalternativen innerhalb eines Items auftreten > besonders bei Mehrfachwahlaufgaben
  • Maßnahmen gegen systematische Verzerrung
    • Reihenfolgeeffekte > zufällige Reihung
    • überhöhte Korrelation bei mehrdimensionalen Tests > entfernte Platzierung zusammenhängender Items
      • widerspricht aber Zufallsreihung, da systematische Gruppierung notwendig
  • bei Leistungstests mit Powerkomponenten in der Regel aufsteigende Schwierigkeit, um Probanden nicht so schnell zu entmutigen und Zahl der bearbeiteten Aufgaben zu maximieren

Pretes

  • Prüfung der Items auf Verständlichkeit und Eindeutigkeit
  • Erfassung möglicher Probleme mit der Akzeptanz durch Fragen, die als invasiv, belastend, inakzeptabel empfunden wurden
  • kleine Stichprobe ausreichend
  • empfehlenswert: qualitative Erhebung mit der Möglichkeit, Kommentare abzugeben

quantitative Prüfung der Vorform des Tests 

  • Prüfung empirischer Kennwerte für einzelne Items
  • Kennwerte werden genutzt, um Unterschiede in Messeigenschaften einzelner Items zu identifizieren und zur Kürzung der Vorform des Tests bzw. zur Eliminierung weniger gut geeigneter Aufgaben zu nutzen
  • KTT:
    • Itemschwierigkeit
    • Itemtrennschärfe
  • PTT:
    • Statistiken zur Prüfung der Modellverträglichkeit einzelner Items sowie des ganzen Modells stehen zur Verfügung
    • innerhalb PTT Trennung der Analyse einzelner Items von Beurteilung des gesamten Tests logisch schwer zu trennen

Itemanalyse nach Klassischer Testtheorie (KTT)

SPSS-Beispiel: Big Five Inventory (BFI):

  • 44 Items
  • 7-10 je Persönlichkeitsdimension (Neurotizismus (N), Extraversion (E), Offenheit für Erfahrungen (O), Verträglichkeit (A), Gewissenhaftigkeit (C))
  • fünfstufige bipolare Ratingskala
  • kurze Satzfragmente als Antwort
  • rational konstruierter Test zur Messung eines faktorenanalytisch konstruierten Tests zur Messung eines faktorenanalytisch begründeten Persönlichkeitsmodells

Rekodierung invertierter Item

  • sinnvoll, damit sämtliche Items gleich gepolt sind
  • TRANSFORMIEREN > UMKODIEREN IN DIESELBEN [ODER ANDERE] VARIABLEN
    • invertierte (= umgepolte) Items mit i am Ende gekennzeichnet > in „NUMERISCHE VARIABLEN“ verschieben
    •  „ALTE UND NEUE WERTE“ > Spezifizierung, z. B. 5 > 1

 

Wählen Sie zum Ausführen von SPSS-Befehlen stets die Option EINFÜGEN, mit der
die jeweilige Anweisung zunächst in eine Syntax-Datei geschrieben und erst dann ausgeführt
wird > mit Befehl OK wird die jeweilige Berechnung unmittelbar ausgeführt und das Ergebnis im Output angezeigt

 

  • ANALYSIEREN > DESKRIPTIVE STATISTIKEN > DESKRIPTIVE STATISTIK
    • in OPTIONEN Auswahl von Kurtosis (Exzess) und Schiefe
  • ANALYSIEREN > DESKRIPTIVE STATISTIKEN > EXPLORATIVE DATENANALYSE > DIAGRAMME
    • Abruf von Tests auf Normalverteilung und von Histrogrammen
  • Auswertung deskriptive Statistik (siehe Grafik)

 

  • Schiefe und Exzess sollten nicht den absoluten Wert 1 überschreiten > wird als kritisch für Anwendung von Strukturgleichungsmodellen gesehen
  • bei Rückweisung der Annahme der Normalverteilung über Kolmogorov-Smirnov-Test kann Berechnung der Korrelationen einschließlich Faktorenanalyse erschwert sein

Itemschwierigkeitsindex ohne Korrektur

  • bei vorliegenden Ratingskalen bilden Mittelwerte Grundlagen für Berechnung
  • einfachste Form: Itemschwierigkeit = prozentualer Anteil der richtigen Lösungen (richtigen Zustimmungen bei ja / nein) an allen Lösungen eines Items innerhalb einer Stichprobe

                        P = NR / N * 100 (siehe Grafik)

  • NR = Anzahl der Probanden, die die Aufgabe richtig (im Sinne des Aufgabenkriteriums) gelöst haben
  • N = Anzahl der Probanden
  • P = Schwierigkeitsindex ohne Korrektur

- Index steigt mit Anzahl der richtigen Lösungen / sinkt bei falschen Lösungen

- entspricht bei Persönlichkeitstests hoher Ausprägung des Konstrukts

Schwierigkeitsindex mit Zufallskorrektur

  • bei Leistungstests mit Mehrfachwahlformat entsteht gewisser Prozentsatz richtiger Lösungen durch Zufall / Raten
    • Ratewahrscheinlichkeit bei 2 Lösungen = 50 %
    • bei mehr Lösungen geringere Wahrscheinlichkeit
    • Zufallsfaktor soll bei dichotomen und Mehrfachwahlaufgaben korrigiert werden
    • Formel siehe Grafik
    • NF = Anzahl der Probanden, die die Aufgabe falsch (im Sinne des Aufgabenkriteriums) gelöst haben
    • m = Anzahl der Wahlmöglichkeiten (bei dichotomen Aufgaben mit m=2 entfällt der Ausdruck m-1)
    • PZK = Schwierigkeitsindex mit Zufallskorrektur
    • N = Anzahl der Probanden
  • bei dichotomer Aufgabe: Anteil richtiger Lösungen von 75 % entspricht korrigierter Itemschwierigkeit von 50 %
  • bei fünf Optionen einer MC-Aufgabe: 60 % korrigierte Wahrscheinlichkeit

Schwierigkeitsindex mit Inanspruchnahmekorrektur

  • bei zeitbegrenzten Leistungstests, bei denen nicht alle Items von allen Probanden bearbeitet werden können bzw. bei hohem Anteil fehlender Werte
  • Benutzung von NB = Anzahl derjenigen, die das Item überhaupt bearbeitet haben, statt N im Nenner

Transformation und Schwierigkeitsanalyse bei Ratingskalen

  • Antwortskala muss so transformiert werden, dass theoretisches Minimum den Wert Null annimmt
  • Schwierigkeit berechnet sich nach Formel ohne Korrektur, aber
    • für Anzahl richtiger Lösungen ist der transformierte Mittelwert Mi des Items i einzusetzen
    • für Anzahl der Probanden ist der transformierte Maximalwert xmax des Items zu verwenden

Bedeutung der Itemschwierigkeit

  • Ziel eines Tests: Unterscheidung von Personen mit hoher Ausprägung des Merkmals von denen mit geringer Ausprägung
  • Zahl der theoretisch möglichen Unterscheidungen = Informationshaltigkeit des Items hängt direkt von dessen Schwierigkeit ab
  • theoretisches Maximum wird genau bei mittlerer Schwierigkeit erreicht > bei 100 Personen:
    • 50*50 = 2.500 Unterscheidungen
    • 10*90 = 900 Unterscheidungen
    • 1*99 = 99 Unterscheidungen
  • Item, dass alle lösen oder von niemandem gelöst wird (0*100), enthält keinerlei empirische Information > wertlos
  • Zusammenhang zwischen Itemschwierigkeit und Informationsgehalt eines Items ist umgekehrt u-förmig mit Maximum in Mitte
    • deshalb Bevorzugung von Items mittlerer Schwierigkeit
    • manchmal bereits von vornherein Ausschluss von Items mit extremen Schwierigkeiten
  • unterschiedliche Faustregeln (z. B. jenseits von 10 / 90) zum Ausschluss von Items problematisch
    • Lösungswahrscheinlichkeit eines Items hängt von individueller Ausprägung des gemessenen Merkmals ab > Gruppe der Hochbegabten löst „immer“ alle Aufgaben mittlerer Schwierigkeit > hier wäre dann ggf. keine Differenzierung mehr möglich
    • Schwierigkeit sagt nur etwas über maximale Information im Item aus, nicht, ob wie es Zielkonstrukt erfasst
    • inhaltlich adäquate Items mit relativ extremen Schwierigkeiten können Test verbessern
    • Probleme, wenn Test vorrangig aus Items mit extremen Schwierigkeiten bestehen
      • Einschränkungen hinsichtlich anderer Kennwerte und Gütekriterien: Itemhomogenität, Trennschärfe, Reliabilität, Validität
      • Probleme der Korrelation, wenn viele linksschiefe und viele rechtsschiefe Items kombiniert werden
    • Nachteil ist in praktischer Testkonstruktion abzuwägen gegen Notwendigkeit der vollständigen Testabdeckung des Merkmalsbereichs
    • Beibehaltung von Schwierigkeiten jenseits 5 / 95 % selten zu rechtfertigen

Trennschärfeanalyse

  • Skala = mehrere aufsummierte oder gemittelte Items, die inhaltlich dieselbe Eigenschaft oder Fähigkeit erfassen sollen
  • Trennschärfe ist in KTT wichtigster Indikator dafür, wie gut jedes einzelne Item das zugrunde liegende Merkmal abbildet