Testtheorie

Testtheorie und Fragebogenkonstruktion

Testtheorie und Fragebogenkonstruktion

Lucila Falballa

Lucila Falballa

Fichier Détails

Cartes-fiches 143
Utilisateurs 20
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 13.11.2012 / 25.02.2024
Lien de web
https://card2brain.ch/box/testtheorie
Intégrer
<iframe src="https://card2brain.ch/box/testtheorie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Welche Fehlerquellen gibt es beim Paralleltestverfahren?

Es gilt prinzipiell das Gleiche wie beim Retest, mit Ausnahmen:

- direkte Erinnerungseffekte können nicht auftreten

- zusätzlich sind Einschränkungen bzgl. der Parallelität (Spezifität der

Itemstichprobe) zu erwarten

Halbierungsverfahren (Split - Half)

Der Test wird in zwei Hälften geteilt, die Korrelation der Testhälften dient der

Schätzung der Reliabilität. Um die Reliabilitätsverschlechterung durch die

Halbierung der Itemzahl zu kompensieren, wird die Spearman-Brown-Formel

(vgl. Block 4) angewendet:

Welche Möglichkeiten gibt es zur Testhalbierung (möglichst parallel)?

- Zufallsauswahl der Items

- Odd-Even

- Itemzuteilung nach Analysedaten („Itemzwillinge“), v.a. p und rit

bis hin zur faktoriellen Struktur – naheliegend v.a. bei Zweifeln an der

Itemhomogenität

- Itemzuteilung nach Bearbeitungszeit bei Speed-Tests

Bevor man die Spearman - Brown - Formel anwendet, mus man sicherstellen, dass sich die Mittelwerte und Varianzen der Testhälften nicht wesentlich unterscheiden! Wie kann man das machen?

Annahme gleicher Varianzen:

Guttman - Rulon - Koeffizient

Welche Fehlerquellen gibt es bei dem Halbierungsverfahren?

Bedingt durch die gemeinsame, vermischte Vorgabe der beiden „Testhälften“,

kommt ausschließlich mangelnde Parallelität der beiden Testhälften (Spezifität

der Itemstichprobe) zum Tragen.

Bei Speed-Tests wird die Reliabilität überschätzt, weil ein Teil der Items beider Testhälften konsistent nicht (also „falsch“) bearbeitet wird, sobald dem Testanden die Zeit ausgeht. Je stärker die Zeitbegrenzung, desto stärker die Überschätzung.

Inter - Item - Konsistenz

jedes Item wird als seperater Testteil gesehen und auch aus der Zusammenhangsstruktur der Items kann auf die Reliabiltät geschlossen werden!

Dies entspricht zugleich der durchschnittlichen Korrelation aller Testitems,

wiederum per Prophey-Formel auf den Gesamttest hochgerechnet. Die Berechnung geht am ökonomischsten über den Vergleich der Einzelitemvarianzen mit der Gesamttestvarianz. Diese Formel wird von Cronbach (1951) α genannt:

Wann liefert Cronbachs alpha eine exakte Schätzung der Reliabilität?

Die Formel liefert eine exakte Schätzung der Reliabilität, wenn

a) die Itemfehler unabhängig sind und

b) die Items essentiell τ-äquivalent sind, d.h., dass sich jeder wahre

Itemwert aus τ und einer additiven Konstanten zusammensetzt:

i i

τi =τ + ci

Bei nicht erfüllter Voraussetzung b) unterschätzt Cronbachs α die wahre

Reliabilität (z.B. Feldt, Woodruff & Salih, 1987). Es stellt also eine sog. „lowerbound“-Schätzung dar.

Bei nicht erfüllter Voraussetzung a) überschätzt Cronbachs α die wahre

Reliabilität (Lucke, 2005) – ein in der Regel ignoriertes Problem (s.u.).

Welche Anwendungsmöglichkeiten gibt es für Cronbachs alpha?

Cronbachs α ist eine Verallgemeinerung der Formel KR 20 von Kuder &

Richardson, denn es lässt sich anwenden auf:

- beliebige m Testteile gleicher Länge

- m einzelne Items mit unterschiedlicher Bepunktung

- bei Aufteilung des Tests in so viele Teile, wie er Items hat, die alle

dichotom sind (in dem Fall geht Cronbachs α in KR 20 über)

Heterogene Items & Cronbachs Alpha

+ inhaltliche Breite

+ eine derartige Skala wird jedoch zwangsläufig eher niedrige Werte in der Inter - Item - Konsistenz erreichen

-> Interne Konsistenz sollte nicht als Ideal betrachtet werden

+ ein hohes alpha darf jedoch auch nicht als Beleg für Eindimensionalität einer Skala betrachtet werden

-> auch bei Skalen mit vielen ITems wird Alpha auch sehr groß werden!

Welche Aspekte gibt es, um die Reliabilität zu beurteilen?

+ Vergleich mit konkurrierenden Verfahren

+ Individual- vs. Kollektivdiagnostik

+ Einsatzbedingungen

+ Merkmalsbedingte Beschränkungen

+ Geltungsbereich

+ Konzeptuelle Beschränkungen

Vergleich mit konkurrierenden Verfahren

Etablierte Verfahren zur Erfassung ähnlicher oder gleicher Konstrukte können

als Messlatte dienen.

- Intelligenzmaße weisen Reliabilitäten von .90 bis .95 auf

- im Persönlichkeitsbereich finden sich auch bei etablierten Tests

(z.B:NeoFFI) auch Werte um .70

Individual- vs. Kollektivdiagnostik

Für Forschungsanwendungen kann die Reliabilität auch gering sein, es sind dann jedoch kaum noch vernünftige Aussagen über das Individuum möglich (s. Vertrauensintervalle!)

Einsatzbedingungen

- für Screening-Zwecke kann eine geringe Reliabilität ausreichen.

- bei Entscheidungen größerer Tragweite (z.B. Personalauswahl) lohnt unter

Kosten-/Nutzen-Gesichtspunkt der Aufwand für eine möglichst hohe

Reliabilität

Merkmalsbedingte Beschränkungen (Reliabilität)

- Begrenzungen bzgl. möglicher Objektivität

(aufgrund von Messverfahren -> projektive Tests)

- Heterogenität des Merkmals

(Bandbreite - Fidelitäts - Dilemma)

Geltungsbereich

In unterschiedlichen Probandenpopulationen kann die Reliabilität u.U. deutlich unterschiedlich hoch ausfallen:

- Auswirkungen der Stichprobenvarianz

(viel zu einfach -> kaum Varianz)

- Boden- / Deckeneffekte

(beschränkte Wertebereiche:

Deckeneffekte: selbst wenn jemand den maximalen IQ - Wert hat, kann es trotzdem jemanden geben, der besser ist, aber der Wert kann nicht weiter ansteigen)

Konzeptuelle Beschränkungen

Die Annahme unkorrelierter Messfehler innerhalb eines Tests oder zwischen

parallelen Tests ist nicht immer realistisch.Schon Guttman (1953) hat sich mit

dem Problem beschäftigt und Methoden zur Reliabilitätsermittlung bei

korrelierten Itemfehlern entwickelt, die aber generell wenig Beachtung fanden.

Konzeptuelle Beschränkungen (Gründe für korrelierte Item - Messfehler)

- Kontexteffekte, also äußere (Stör-)einflüsse, die während der Bearbeitung

mehrerer Items bestehen bleiben (Rozeboom, 1966)

- Itembündel / Testlets, also Itemgruppen mit gleichem Stimulus, gleichem

Inhalt oder gleicher Struktur (Rosenbaum, 1988)

Konzeptuelle Beschränkungen (Was ist so schlimm an korrelierten Itemfehlern?)

+ sämtliche Herleitungen von Maßen der Inter-Item-Konsistenz (z.B. Cronbachs α) Unabhängigkeit der Itemfehler voraussetzen.

+ Andernfalls wird die wahre Reliabilität mit diesen über(!)schätzt.

Verbreitet ist die Ansicht, dass das Ausmaß der Überschätzung gering ist und gegenüber der itemheterogenitätsbedingten Unterschätzung nicht ins Gewicht fällt.

In einigen Arbeiten (z.B. Lucke, 2005) wird jedoch gezeigt, wie stark die

Überschätzung ausfallen kann (s.u.).

Was bedeutet Validität?

"Frage, ob ein Test misst, was er messen soll"

Validität ist ein integriertes bewertendes Urteil über das Ausmaß, in dem die Angemessenheit und Güte von Interpretationen und Maßnahmen auf Basis von Testwerten oder anderen diagnostischen Verfahren durch empirische Belege und theoretische Argumente gestützt sind.

Operationale Merkmalsdefinition (Validität)

Das Merkmal wird über die Inhalte/Anforderungen, des Tests, mit dem es

gemessen werden soll, definiert.

Beispiel:

(ganz kompakt:) „Intelligenz ist das, was der Intelligenztest misst.“

(Boring, 1923)

Theoretisch begründete Merkmalsdefinition

Ein Merkmal wird im Rahmen einer Theorie definiert. Im Rahmen der Theorie

werden Verknüpfungen mit anderen Merkmalen und kausale Strukturen

spezifiziert.Beispiel:

- Eysencks Persönlichkeitstheorie enthält Annahmen über biologischneurologische Ursachen für Persönlichkeitsmerkmale wie z.B.

Extraversion. Aus diesen Annahmen werden Ursachen für Unterschiede in

Verhaltensweisen abgeleitet.

Verbindung von operationaler und theoretisch begründeter Merkmalsdefinition

Voraussetzung dafür ist natürlich das Vorhandensein einer hinreichend

verlässlichen Theorie bezüglich der zu messen Eigenschaft. Für eine operationale

Definition wird dies nicht benötigt.

Die Übergänge von operationaler zu theoretischer Merkmalsdefinition sind

fließend.

Inhaltsvalidität (Kontentvalidität)

+ Bei der Inhaltsvalidität geht es darum, ob die Testinhalte repräsentativ für das vom Test zu messende Merkmal sind

+ („Repräsentationsschluss“) Bei einem theoretisch definierten Merkmal ist

zusätzlich zu prüfen, ob die Items einen Schluss auf das zu messende

theoretische Konstrukt zulassen.

Welche Kriterien müssen erfüllt sein, damit die Itemstichprobe repräsentativ ist?

- sind alle für das Merkmal relevanten Inhalte im Test vorhanden?

- stehen die Inhalte in einem angemessenen Verhältnis zueinander?

- sind keine Inhalte enthalten, die sich auf Irrelevantes beziehen?

Krtiterienbezogene Validität

Die kriterienbezogene Validität wird weiter aufgegliedert in:

Übereinstimmungsvalidität (auch: konkurrente Validität) und

Vorhersagevalidität (auch: prädiktive Validität)

+ ein Außenkriterium zur (korrelations- und regressionsanalytischen) Validierung herangezogen wird („Korrelationsschluss“)

Konkurrente Validität

Das Kriterium wird gleichzeitig mit dem Test erfasst

Prädiktive Validität

+ Das Testergebnis soll eine Prognose zukünftigen Verhaltens ermöglichen. + Das Kriterium wird also erst zu einem späteren Zeitpunkt vorliegen.

Prognose (Validität)

Mit Hilfe der Prognoseformeln der linearen Regression lässt sich ein

Kriteriumswert y auf Basis des Testwertes x vorhersagen.

Zusammenhang zwischen Reliabilität und Validität

+ Da die Messfehler von Prädiktor und Kriterium unkorreliert sind, können nur

die wahren Werte zweier Tests systematisch miteinander korrelieren

+ Je größer diese Fehleranteile sind (d.h. je niedriger die Reliabilität ist), desto

stärker wird die beobachtete Korrelation unter der theoretisch denkbaren

Korrelation der wahren Werte liegen.

Attenuationskorrektur (Minderungskorrektur)

+ die doppelte Minderungskorrektur korrigiert den beobachtbaren Zusammnehang zwischen zwei Testwerten durch die Berücksichtigung der Reliabilitäten Rel (X) und Rel (Y) der beiden Testwerte nach oben

Maximal erreichbare Korrelation

kk

Validitätssteigerung durch Testverlängerung

Validität eines um k verlängerten Tests

Anwendungshinweise zur Attenuationskorrektur

Die Attenuationskorrektur ist nur dann sinnvoll, wenn eine zuverlässige, nicht zu pessimistische Reliabilitätsschätzung des Tests und/oder Kriteriums zur

Verfügung steht – denn sonst wird die Validität überschätzt werden.

Sinnvoll Anwendungen sind z.B.:

- Grundlagenforschung: Aussagen über Beziehungen auf Konstruktebene

- Kosten-Nutzen-Analysen zum Thema Testverlängerung

- Korrektur der Validität bei unreliablen Kriterien

Unsinnige Anwendungen sind z.B.:

- Verwendung von Reliabilitätsschätzungen anhand der Konsistenz, wie z.B.

Cronbachs α, bei heterogenen Items

- Verwendung von Reliabilitätsschätzungen anhand der Retestreliabilität bei

instabilen Merkmalen

- Aufbesserung eines Validitätskoeffizienten im Testmanual durch

Herausrechnen der Unreliabilität des Tests

Partielle Inkompatibilität von Reliabilität und Validität

+ Die Steigerung der (v.a. über die interne Konsistenz) geschätzten Reliabilität kann zu einer Verminderung der Validität führen!

+ Ursache ist das Problem der Itemheterogenität („Bandbreite – Fidelitäts –

Dilemma“), wie bereits im Rahmen der Reliabilitätsschätzung behandelt

+ hohe Validität eines Tests unterschiedliche Itemschwierigkeiten günstiger

sind als konsistent mittelhohe Itemschwierigkeiten, obwohl letztere für die

interne Konsistenz am günstigsten wären

Irrepräsentative Stichprobenvarianz

christiaaaan!

Selektierte Validierungsstichprobe

cb

Konstruktvalidität

Wenn ein Test tatsächlich das Konstrukt erfasst, das er erfassen soll.

Konstrukte werden nicht wie bei operationaler Definition auf Beobachtbares reduziert, sondern

- Einbau der Konstrukte in ein nomologisches Netzwerk, so dass

überprüfbare Voraussagen über Beobachtbares möglich werden

- Sukzessive Verdichtung des nomologischen Netzwerkes als Approximation

- je dichter das Netz, desto größer die Evidenz für Konstruktvalidität

Kennzeichnend für das Konzept sind also:

- Trennung Konstrukt / Messinstrument

- Gemeinsame Weiterentwicklung der Konstrukte

- Theoriebezug

Starke vs. schwache Konstruktvalidierung

Beim schwachen Ansatz liegt keine formale Theorie vor.

Welche Methoden gibt es zur Beurteilung der Konstruktvalidität?

- Experimenteller Ansatz

o Variation theoretisch relevanter Einflussfaktoren auf das im Test

gemessene Konstrukt

o Prüfung, ob Konstrukt als organismische UV erwartungsgemäße

Effekte im Rahmen experimenteller Designs aufweist

- Korrelativer Ansatz

o konvergent (Zusammenhang wird erwartet)

o diskriminant (kein Zusammenhang / niedrig)

o faktorenanalytisch

exploratorisch (welche Dimensionen?)

konfirmatorisch (Dimensionalität überprüfen)

SEM

Skalenebene/Itemebene

o MTMM (Multitrait - Multimethod - Ansatz)

Weitere Validitätsbegriffe

+ Augenscheinvalidität

+ Curriculare Validität (Feststellung v. Lernzuwachs)

+ Differentielle Validität (homogene Stichprobe, trotzdem unterschiedl. Testw.)

+ Diskriminante Validität (keine Korr. zu einem anderen Test)

+ Faktorielle Validität (faktorielle Struktur = hypothetisches Konstrukt)

+ Inkrementelle Validität (informiert über Validitätsgewinn)

+ Kreuzvalidität (V. mit einer vergleichbaren Studie)

+ Logische Validität (Anerkennung durch Fachleute)

+ Mischgruppenvalidität (Stichproben zweier Population werden verglichen)

+ Multiple Validität (Zusammenhan m. breiteren Sample v. Kriterien gesichert)

+ Ökologische Validität (inwieweit praktisch)

+ Synthetische Validität (in Einzeldeterminanten zerlegt und getestet)