Modul 6a FernUni-Hagen

Testkonstruktion

Testkonstruktion

Rosemarie Stübs

Rosemarie Stübs

Fichier Détails

Cartes-fiches 90
Utilisateurs 19
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 10.01.2014 / 04.01.2025
Lien de web
https://card2brain.ch/box/modul_6a_fernunihagen
Intégrer
<iframe src="https://card2brain.ch/box/modul_6a_fernunihagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

KTT 2. Folgerung

r( E,T) = 0

 

wahrer Wert und Messfehler sind unkorreliert

weitere Folgerung

r (EA

, EB) = 0

 

 

(3)                                                                        

   

Fehler verschiedener Tests sind unkorreliert

bei experimentell (nicht empirisch) unabhängigen Tests

 

die Annahme eines nicht vorhandenen Zusammenhangs von Messfehlern in der Praxis kann falsch sein kann. Die Annahme sei für mathematische Ableitungen zwar bequem, aber nicht zwingend notwendig.

weitere Folgerungen

 

r (EA, TB) = 0 (4)

 

Kreuzweise Unkorreliertheit von Fehlern und wahren Werten verschiedener Tests

 

Reliabilität in der KTT

Die Reliabilität (rtt) ist in der KTT definiert als der Anteil der wahren Varianz S2T an der gesamten beobachteten Varianz S2X.

was lässt sich aus der Reliabilität ableiten?

Standardschätz- und Standardmessfehler als Ableitungen aus der

Reliabilität

Was fließ in T mit ein (ohne dass die größe bestimmt werden kann?

alle Faktoren, die den Testwert systematisch beeinflussen (z. B. Testangst als Einfluss bei Intelligenz) -bias -wird der wahren Varianz zugeschlagen

Xi = Ci + Bi + Ei

Kritik an KTT

  • Nicht intendierte systematische Varianzanteil (bias) werden dem wahren Wert zugerechnet
  • Die KTT stellt keine Verbindung zwischen einer Fähigkeit, einem Merkmal oder einer Eigenschaft und der Itembeantwortung her.
  • Übungs- und Transfereffekte können sich systematisch auf die Testleistung auswirkens und verändern die wahre Leistungsfähigkeit einer Person

    unter Verletzung der Annahme von Eindimensionalität (Test oder Skala misst nur ein Konstrukt) werden sowohl der wahre Wert einer Person als auch die Messgenauigkeit eines Tests über- oder in manchen Fällen auch unterschätzt werden.

     

 

 

 

 

ungenaue Messgenauigkeit in welchen Bereichen?

bei extrem hohen und niedrigen Fähigkeitsausprägungen

können Leistungen ungenauer als im mittleren Bereich gemessen werden (Fischer )

Wird Eindimensionaltät in der KTT geprüft?

nein.

Treten keine korrelierten Fehler zwischen Messwerten auf, liegt Eindimensionalität vor - Annahme der KTT!

 

Stichprobenabhängigkeit der KTT

je nach Referenzgruppe können sich völlig andere Bedeutungen der individuellen Leistung ergeben

Bei Testverfahren, die nach der KTT konzipiert sind, behilft man sich damit, dass man Gütekriterien für verschiedene Teilstichproben zur Verfügung stellt.

 

Vorzug der PTT:

 im Rahmen einzelner probabilistischer Modelle ist es möglich, stichprobenunabhängige Item- und Personenkennwerte zu ermitteln.

 

Rasch Modell, worum geht es?

es geht um den Zusammenhang zwischen der Fähigkeit (oder Eigenschaft) einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst (oder z.B. einer Aussage zustimmt), die besagte Fähigkeit bzw. Eigenschaft messen soll.

Was wird in der PTT untersucht im Gegensatz zur KTT?

In der PTT werden nicht wie in der KTT Rohwertvarianzen und Kovarianzen untersucht,

sondern Antwortmuster, die einem bestimmten Modell folgen müssen.

Wovon hängt in der PTT die Lösungswahrscheinlichkeit für ein bestimmtes Item ab?

(1) von der Fähigkeit oder Eigenschaftsausprägung einer Person sowie

(2) der Schwierigkeit eines Items ab.

  • Person-Parameter
  • Itemparameter

Wie komen Person. und Itemparameter zustande?

 

Beides wird im Rahmen von PTTAnalysen empirisch geschätzt.

Die Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist dabei probabilistisch.

Das heißt, auch eine Person mit geringer Fähigkeit im Vergleich zur Schwierigkeit eines Items hat eine, wenn auch relativ geringe, Wahrscheinlichkeit, ein solches Item zu lösen.

 

Voraussage der PTT bezüglich der Personfähigkeit

Das Modell sagt also voraus,

dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung, einer bestimmbaren mathematischen Funktion folgend, zunimmt.

Unterschied der PTT zu KTT

PTT erlaubt Modelltests der Voraussetzungen.

So wird in der KTT für den Summenwert einer Person in einem Test Intervallskalenniveau unterstellt, während in der PTT die Zulässigkeit der Summation (und damit das Skalenniveau) geprüft wird.

Ebenso prüft man im Rasch-Modell durch den Modelltest zumindest indirekt die in der KTT einfach vorausgesetzte Eindimensionalität.

Die Modelltests der PTT lassen sich im Prinzip auch auf Tests anwenden, die ursprünglich nach der KTT konstruiert wurden.

 

 

 

Was sagt der Summenwert in der PTT aus?

Wird das Modell durch den Modelltest nicht abgelehnt, sagt der Summenwert der Itemantworten auch wirklich etwas über den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeit) aus.

Dann ist der Summenwert auch eine erschöpfende Statistik der Personenfähigkeit.

wann ist ein Item ein guter Indikator für eine Variable?

Ein Item ist dann ein guter Indikator für eine latente Variable, wenn die Leistung in diesem Item komplett auf die Fähigkeitsausprägung auf der latenten Variable zurückzuführen ist und nicht auf andere Fähigkeiten.

= höchst wünschenswert - Homogenität

lokale stochastische Unabhängigkeit, was ist wenn das Rasch Modell durch den Modelltest nicht verworfen wird?

besagt,

dass man die Lösungswahrscheinlichkeiten der Items für alle Personen multiplizieren darf.

Wenn das Rasch-Modell durch den Modelltest nicht verworfen wird, liegt auch diese Eigenschaft vor.

Rasch-Modell implementiert damit eine echte Messtheorie in die Psychologie.

Testkonstruktion:

Merkmalsbereich

Was soll der Test messen?

Testkonstruktion

Geltungsbereich

 

Wo, bei wem und wofür soll der Test eingesetzt werden?

Abgrenzung des Merkmalsbereichs mittels:

  • Literaturrecherche
  • explorative Verfahren der Datenerhebung wie die Befragung von Experten oder anderen relevanten Personen mittels qualitativer Interviews
  • act frequency approach (AFA; Buss & Craik, 1983)
  • Methode der kritischen Ereignisse bzw. critical incidenttechnique (CIT, Flanagan,1954)               

  • Facettentheorie (Guttman, 1959)

 

Facettentheorie (Guttman, 1959)

Methode zur Systematisierung wissenschaftlicher Fragestellungen. Sie stellt Werkzeuge zur Verfügung, um einenMerkmalsbereich vollständig einzugrenzen, in einzelne Teilmerkmale (Facetten) und deren Ausprägungen bzw. Typen zu zergliedern und die Beziehungen zwischen den Facetten darzustellen und anschließend auch empirisch zu skalieren.

Wielaufen bie CIT und AFA Definition und Itemformulierung?

in einem Schritt

Was muss meistens jedoch vor der Itemformulierung erfolgen?

 

eine Arbeitsdefinition.

diese kann durchaus auch aus einer (überschaubaren!) Liste konkurrierender Definitionen bestehen. Dies setzt voraus, dass mit dem Test überhaupt eines oder mehrere definierte psychologische Konstrukte wie Fähigkeiten, Eigenschaften oder Einstellungen gemessen werden sollen.

Was ist bei der Eingrenzung des Geltungsbereiches zu beachten?

  • Einschränkung durch Auftraggeber 
  • ethische Richtlinien
  • frühe Erfassung gesetzwidriger Inhalte  (Diskriminierung)
  • nicht altersgemäße Anwendung
  • Verknüpfung unvereinbarer Zwecke

Generell steigen die Ansprüche an die empirische Prüfung und Normierung, je breiter Anwendungsbereich und Zielgruppe definiert sind.   Grundsätzlich sollte die empirische Fundierung in der Entwicklungsphase dem angestrebten Geltungsbereich entsprechen, weshalb Entscheidungen über den Geltungsbereich Einfluss auf die Planung der späteren Entwicklungsschritte haben

grundlegende Konstruktionsprinzipien

  • raional
  • external
  • internal

seltene Sonderfälle:

  • der typologisierende und
  • der Prototypenansatz

Ausgangspunkt der rationalen Testkonstruktion

eine operationale, also zur Umsetzung in eine Messung oder Beobachtung geeignete theoretische Definition des Zielkonstrukts.

rationale Testkonstruktion:

Art der Ableitung:

deduktiv aus der allgemeinen Definition

möglich: es kann eine theoretische Auswahl aus einem Itempool getroffen werden.

Besteht die rationale Testform immer in Reinform?

Übergänge zwischen rationaler und intuitiver oder erfahrungsgeleiteter Testkonstruktion (Jonkisz & Moosbrugger, 2007, sprechen von intuitiver Konstruktion bei relativ geringem theoretischem Kenntnisstand) in der Praxis der Testkonstruktion fließend.

Beispiel für einen rational konstruierten Test

  • Berliner Intelligenzstruktur-Test (BIS-Test, Jäger, Süß & Beauducel, 1997)
    • hier: hierarchische Struktur der Intelligenz
    • Intelligenzleistungen entstehen bimodal, es ist also stets eine Kombination mindestens einer inhaltsgebundenen und einer operationalen Komponente beteiligt
  • Retrospective Behavioral Self-Control Scale (RBS, Marcus, 2003a, 2004)
  •          beruht auf der Definition von Selbstkontrolle in der          kriminologischen Theorie von Gottfredson und                Hirschi (1990).
  •         Selbstkontrolle = verhaltensnah und utilitaristisch,            als die Meidung von Handlungen, die dem                        Handelnden selbst langfristig mehr schaden als            nutzen.
Pool von Items, in dem nach konkreten Handlungen gefragt wird, nicht aber z.B. nach Generalisierungen oder nach Einstellungen   nach Gottfredson und Hirschi  soll Selbstkontrolle über die Lebensspanne relativ stabil sein, weshalb die Items in der RBS nach Lebensabschnitten geordnet sind.   postulieren ein homogenes Konstrukt, d.h. ein Test, der sich aus theoriekonformen Items zusammensetzt, sollte sich empirisch als eindimensional erweisen.   Dies wurde für die RBS mittels konfirmatorischer Faktorenanalysen (vgl. Abschnitt 4.2) überprüft

 

was bedeutet theoriegeleitete Entwicklung bei einem rationalen Test?

Theoriegeleitete Entwicklung bedeutet, dass die Formulierung und Auswahl von Items und deren Zuordnung zu Subtests aufgrund von inhaltlichen Erwägungen und nicht hauptsächlich auf der Grundlage empirischer Daten erfolgt.

dürfen Items bei einer rationalen Konstruktion eines Tests eliminiert werden

es ist üblich, eine zunächst theoriegeleitet konstruierte Skala mittels empirischer Itemanalysen zu verkürzen

Wann wird die Erhebung empirischer Daten bei einem rational konstruierten Test nötig?

Notwendig wird die Erhebung empirischer Daten spätestens bei der Validierung rational konstruierter Skalen.

externale Testkonsruktion  -Ableitung

empirisch

Typische Anwendungsfälle der externalen Strategie

  • Unterscheidung des Vorliegens von Persönlichkeitsstörungen von deren Nichtvorliegen
  • Gruppenbildung Nichtvorliegen und Vorliegen von P.

Gruppenbildung external konstruierter Tests

es werden Gruppen untersucht (Vorliegen, nicht Vorliegen einer P-Störung)

Auch zur Vorhersage grundsätzlich kontinuierlich verteilter Merkmale wie beruflicher Leistung mittels external konstruierter Tests werden oft künstlich Gruppen gebildet, die sich maximal (Extremgruppenvon „Niedrigstleistern“ und „Höchstleistern“) voneinander unterscheiden.   Grundsätzlich setzt die externale Strategie die Existenz von Gruppen nicht voraus.   es kommt allein auf die Auswahl der Items nach dem Prinzip der Maximierung des empirischen Zusammenhangs mit einem Kriterium an, wobei im Extremfall („blinder Empirizismus“ oder „dust bowl empiricism“) auf inhaltliche Erwägungen ganz verzichtet wird.   In diesem Sinn ist die externale Testkonsruktion kriterienorientiert.

Gruppenbildung external konstruierter Tests

es werden Gruppen untersucht (Vorliegen, nicht Vorliegen einer P-Störung)

Auch zur Vorhersage grundsätzlich kontinuierlich verteilter Merkmale wie beruflicher Leistung mittels external konstruierter Tests werden oft künstlich Gruppen gebildet, die sich maximal (Extremgruppenvon „Niedrigstleistern“ und „Höchstleistern“) voneinander unterscheiden.   Grundsätzlich setzt die externale Strategie die Existenz von Gruppen nicht voraus.   es kommt allein auf die Auswahl der Items nach dem Prinzip der Maximierung des empirischen Zusammenhangs mit einem Kriterium an, wobei im Extremfall („blinder Empirizismus“ oder „dust bowl empiricism“) auf inhaltliche Erwägungen ganz verzichtet wird.   In diesem Sinn ist die externale Testkonsruktion kriterienorientiert.

externale Testkonstruktion, analog zu welchem Ansatz?

dem regressionsanalytischen

Nachteile der externalen Testkonstruktion

  • atheoretische Anpassung an die Stichprobe, schwer interpretierbare Skalen
  • Erfordernis großer und repräsentativer Stichproben bei der Entwicklung
  • Erfordernis der unabhängigen Replikation (Kreuzvalidierung) der Befunde aus der ersten Datenerhebung