Testtheorie
Testtheorie und Fragebogenkonstruktion
Testtheorie und Fragebogenkonstruktion
Fichier Détails
Cartes-fiches | 143 |
---|---|
Utilisateurs | 20 |
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 13.11.2012 / 25.02.2024 |
Lien de web |
https://card2brain.ch/box/testtheorie
|
Intégrer |
<iframe src="https://card2brain.ch/box/testtheorie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Welche Fehlerquellen gibt es beim Paralleltestverfahren?
Es gilt prinzipiell das Gleiche wie beim Retest, mit Ausnahmen:
- direkte Erinnerungseffekte können nicht auftreten
- zusätzlich sind Einschränkungen bzgl. der Parallelität (Spezifität der
Itemstichprobe) zu erwarten
Welche Möglichkeiten gibt es zur Testhalbierung (möglichst parallel)?
- Zufallsauswahl der Items
- Odd-Even
- Itemzuteilung nach Analysedaten („Itemzwillinge“), v.a. p und rit
bis hin zur faktoriellen Struktur – naheliegend v.a. bei Zweifeln an der
Itemhomogenität
- Itemzuteilung nach Bearbeitungszeit bei Speed-Tests
Welche Fehlerquellen gibt es bei dem Halbierungsverfahren?
Bedingt durch die gemeinsame, vermischte Vorgabe der beiden „Testhälften“,
kommt ausschließlich mangelnde Parallelität der beiden Testhälften (Spezifität
der Itemstichprobe) zum Tragen.
Bei Speed-Tests wird die Reliabilität überschätzt, weil ein Teil der Items beider Testhälften konsistent nicht (also „falsch“) bearbeitet wird, sobald dem Testanden die Zeit ausgeht. Je stärker die Zeitbegrenzung, desto stärker die Überschätzung.
jedes Item wird als seperater Testteil gesehen und auch aus der Zusammenhangsstruktur der Items kann auf die Reliabiltät geschlossen werden!
Dies entspricht zugleich der durchschnittlichen Korrelation aller Testitems,
wiederum per Prophey-Formel auf den Gesamttest hochgerechnet. Die Berechnung geht am ökonomischsten über den Vergleich der Einzelitemvarianzen mit der Gesamttestvarianz. Diese Formel wird von Cronbach (1951) α genannt:
Wann liefert Cronbachs alpha eine exakte Schätzung der Reliabilität?
Die Formel liefert eine exakte Schätzung der Reliabilität, wenn
a) die Itemfehler unabhängig sind und
b) die Items essentiell τ-äquivalent sind, d.h., dass sich jeder wahre
Itemwert aus τ und einer additiven Konstanten zusammensetzt:
i i
τi =τ + ci
Bei nicht erfüllter Voraussetzung b) unterschätzt Cronbachs α die wahre
Reliabilität (z.B. Feldt, Woodruff & Salih, 1987). Es stellt also eine sog. „lowerbound“-Schätzung dar.
Bei nicht erfüllter Voraussetzung a) überschätzt Cronbachs α die wahre
Reliabilität (Lucke, 2005) – ein in der Regel ignoriertes Problem (s.u.).
Welche Anwendungsmöglichkeiten gibt es für Cronbachs alpha?
Cronbachs α ist eine Verallgemeinerung der Formel KR 20 von Kuder &
Richardson, denn es lässt sich anwenden auf:
- beliebige m Testteile gleicher Länge
- m einzelne Items mit unterschiedlicher Bepunktung
- bei Aufteilung des Tests in so viele Teile, wie er Items hat, die alle
dichotom sind (in dem Fall geht Cronbachs α in KR 20 über)
Heterogene Items & Cronbachs Alpha
+ inhaltliche Breite
+ eine derartige Skala wird jedoch zwangsläufig eher niedrige Werte in der Inter - Item - Konsistenz erreichen
-> Interne Konsistenz sollte nicht als Ideal betrachtet werden
+ ein hohes alpha darf jedoch auch nicht als Beleg für Eindimensionalität einer Skala betrachtet werden
-> auch bei Skalen mit vielen ITems wird Alpha auch sehr groß werden!
Welche Aspekte gibt es, um die Reliabilität zu beurteilen?
+ Vergleich mit konkurrierenden Verfahren
+ Individual- vs. Kollektivdiagnostik
+ Einsatzbedingungen
+ Merkmalsbedingte Beschränkungen
+ Geltungsbereich
+ Konzeptuelle Beschränkungen
Vergleich mit konkurrierenden Verfahren
Etablierte Verfahren zur Erfassung ähnlicher oder gleicher Konstrukte können
als Messlatte dienen.
- Intelligenzmaße weisen Reliabilitäten von .90 bis .95 auf
- im Persönlichkeitsbereich finden sich auch bei etablierten Tests
(z.B:NeoFFI) auch Werte um .70
Individual- vs. Kollektivdiagnostik
Für Forschungsanwendungen kann die Reliabilität auch gering sein, es sind dann jedoch kaum noch vernünftige Aussagen über das Individuum möglich (s. Vertrauensintervalle!)
Einsatzbedingungen
- für Screening-Zwecke kann eine geringe Reliabilität ausreichen.
- bei Entscheidungen größerer Tragweite (z.B. Personalauswahl) lohnt unter
Kosten-/Nutzen-Gesichtspunkt der Aufwand für eine möglichst hohe
Reliabilität
Merkmalsbedingte Beschränkungen (Reliabilität)
- Begrenzungen bzgl. möglicher Objektivität
(aufgrund von Messverfahren -> projektive Tests)
- Heterogenität des Merkmals
(Bandbreite - Fidelitäts - Dilemma)
Geltungsbereich
In unterschiedlichen Probandenpopulationen kann die Reliabilität u.U. deutlich unterschiedlich hoch ausfallen:
- Auswirkungen der Stichprobenvarianz
(viel zu einfach -> kaum Varianz)
- Boden- / Deckeneffekte
(beschränkte Wertebereiche:
Deckeneffekte: selbst wenn jemand den maximalen IQ - Wert hat, kann es trotzdem jemanden geben, der besser ist, aber der Wert kann nicht weiter ansteigen)
Konzeptuelle Beschränkungen
Die Annahme unkorrelierter Messfehler innerhalb eines Tests oder zwischen
parallelen Tests ist nicht immer realistisch.Schon Guttman (1953) hat sich mit
dem Problem beschäftigt und Methoden zur Reliabilitätsermittlung bei
korrelierten Itemfehlern entwickelt, die aber generell wenig Beachtung fanden.
Konzeptuelle Beschränkungen (Gründe für korrelierte Item - Messfehler)
- Kontexteffekte, also äußere (Stör-)einflüsse, die während der Bearbeitung
mehrerer Items bestehen bleiben (Rozeboom, 1966)
- Itembündel / Testlets, also Itemgruppen mit gleichem Stimulus, gleichem
Inhalt oder gleicher Struktur (Rosenbaum, 1988)
+ sämtliche Herleitungen von Maßen der Inter-Item-Konsistenz (z.B. Cronbachs α) Unabhängigkeit der Itemfehler voraussetzen.
+ Andernfalls wird die wahre Reliabilität mit diesen über(!)schätzt.
Verbreitet ist die Ansicht, dass das Ausmaß der Überschätzung gering ist und gegenüber der itemheterogenitätsbedingten Unterschätzung nicht ins Gewicht fällt.
In einigen Arbeiten (z.B. Lucke, 2005) wird jedoch gezeigt, wie stark die
Überschätzung ausfallen kann (s.u.).
Was bedeutet Validität?
"Frage, ob ein Test misst, was er messen soll"
Validität ist ein integriertes bewertendes Urteil über das Ausmaß, in dem die Angemessenheit und Güte von Interpretationen und Maßnahmen auf Basis von Testwerten oder anderen diagnostischen Verfahren durch empirische Belege und theoretische Argumente gestützt sind.
Operationale Merkmalsdefinition (Validität)
Das Merkmal wird über die Inhalte/Anforderungen, des Tests, mit dem es
gemessen werden soll, definiert.
Beispiel:
(ganz kompakt:) „Intelligenz ist das, was der Intelligenztest misst.“
(Boring, 1923)
Theoretisch begründete Merkmalsdefinition
Ein Merkmal wird im Rahmen einer Theorie definiert. Im Rahmen der Theorie
werden Verknüpfungen mit anderen Merkmalen und kausale Strukturen
spezifiziert.Beispiel:
- Eysencks Persönlichkeitstheorie enthält Annahmen über biologischneurologische Ursachen für Persönlichkeitsmerkmale wie z.B.
Extraversion. Aus diesen Annahmen werden Ursachen für Unterschiede in
Verhaltensweisen abgeleitet.
Verbindung von operationaler und theoretisch begründeter Merkmalsdefinition
Voraussetzung dafür ist natürlich das Vorhandensein einer hinreichend
verlässlichen Theorie bezüglich der zu messen Eigenschaft. Für eine operationale
Definition wird dies nicht benötigt.
Die Übergänge von operationaler zu theoretischer Merkmalsdefinition sind
fließend.
Inhaltsvalidität (Kontentvalidität)
+ Bei der Inhaltsvalidität geht es darum, ob die Testinhalte repräsentativ für das vom Test zu messende Merkmal sind
+ („Repräsentationsschluss“) Bei einem theoretisch definierten Merkmal ist
zusätzlich zu prüfen, ob die Items einen Schluss auf das zu messende
theoretische Konstrukt zulassen.
Welche Kriterien müssen erfüllt sein, damit die Itemstichprobe repräsentativ ist?
- sind alle für das Merkmal relevanten Inhalte im Test vorhanden?
- stehen die Inhalte in einem angemessenen Verhältnis zueinander?
- sind keine Inhalte enthalten, die sich auf Irrelevantes beziehen?
Krtiterienbezogene Validität
Die kriterienbezogene Validität wird weiter aufgegliedert in:
Übereinstimmungsvalidität (auch: konkurrente Validität) und
Vorhersagevalidität (auch: prädiktive Validität)
+ ein Außenkriterium zur (korrelations- und regressionsanalytischen) Validierung herangezogen wird („Korrelationsschluss“)
Konkurrente Validität
Das Kriterium wird gleichzeitig mit dem Test erfasst
Prädiktive Validität
+ Das Testergebnis soll eine Prognose zukünftigen Verhaltens ermöglichen. + Das Kriterium wird also erst zu einem späteren Zeitpunkt vorliegen.
Zusammenhang zwischen Reliabilität und Validität
+ Da die Messfehler von Prädiktor und Kriterium unkorreliert sind, können nur
die wahren Werte zweier Tests systematisch miteinander korrelieren
+ Je größer diese Fehleranteile sind (d.h. je niedriger die Reliabilität ist), desto
stärker wird die beobachtete Korrelation unter der theoretisch denkbaren
Korrelation der wahren Werte liegen.
Anwendungshinweise zur Attenuationskorrektur
Die Attenuationskorrektur ist nur dann sinnvoll, wenn eine zuverlässige, nicht zu pessimistische Reliabilitätsschätzung des Tests und/oder Kriteriums zur
Verfügung steht – denn sonst wird die Validität überschätzt werden.
Sinnvoll Anwendungen sind z.B.:
- Grundlagenforschung: Aussagen über Beziehungen auf Konstruktebene
- Kosten-Nutzen-Analysen zum Thema Testverlängerung
- Korrektur der Validität bei unreliablen Kriterien
Unsinnige Anwendungen sind z.B.:
- Verwendung von Reliabilitätsschätzungen anhand der Konsistenz, wie z.B.
Cronbachs α, bei heterogenen Items
- Verwendung von Reliabilitätsschätzungen anhand der Retestreliabilität bei
instabilen Merkmalen
- Aufbesserung eines Validitätskoeffizienten im Testmanual durch
Herausrechnen der Unreliabilität des Tests
Partielle Inkompatibilität von Reliabilität und Validität
+ Die Steigerung der (v.a. über die interne Konsistenz) geschätzten Reliabilität kann zu einer Verminderung der Validität führen!
+ Ursache ist das Problem der Itemheterogenität („Bandbreite – Fidelitäts –
Dilemma“), wie bereits im Rahmen der Reliabilitätsschätzung behandelt
+ hohe Validität eines Tests unterschiedliche Itemschwierigkeiten günstiger
sind als konsistent mittelhohe Itemschwierigkeiten, obwohl letztere für die
interne Konsistenz am günstigsten wären
Konstruktvalidität
Wenn ein Test tatsächlich das Konstrukt erfasst, das er erfassen soll.
Konstrukte werden nicht wie bei operationaler Definition auf Beobachtbares reduziert, sondern
- Einbau der Konstrukte in ein nomologisches Netzwerk, so dass
überprüfbare Voraussagen über Beobachtbares möglich werden
- Sukzessive Verdichtung des nomologischen Netzwerkes als Approximation
- je dichter das Netz, desto größer die Evidenz für Konstruktvalidität
Kennzeichnend für das Konzept sind also:
- Trennung Konstrukt / Messinstrument
- Gemeinsame Weiterentwicklung der Konstrukte
- Theoriebezug
Starke vs. schwache Konstruktvalidierung
Beim schwachen Ansatz liegt keine formale Theorie vor.
Welche Methoden gibt es zur Beurteilung der Konstruktvalidität?
- Experimenteller Ansatz
o Variation theoretisch relevanter Einflussfaktoren auf das im Test
gemessene Konstrukt
o Prüfung, ob Konstrukt als organismische UV erwartungsgemäße
Effekte im Rahmen experimenteller Designs aufweist
- Korrelativer Ansatz
o konvergent (Zusammenhang wird erwartet)
o diskriminant (kein Zusammenhang / niedrig)
o faktorenanalytisch
exploratorisch (welche Dimensionen?)
konfirmatorisch (Dimensionalität überprüfen)
SEM
Skalenebene/Itemebene
o MTMM (Multitrait - Multimethod - Ansatz)
Weitere Validitätsbegriffe
+ Augenscheinvalidität
+ Curriculare Validität (Feststellung v. Lernzuwachs)
+ Differentielle Validität (homogene Stichprobe, trotzdem unterschiedl. Testw.)
+ Diskriminante Validität (keine Korr. zu einem anderen Test)
+ Faktorielle Validität (faktorielle Struktur = hypothetisches Konstrukt)
+ Inkrementelle Validität (informiert über Validitätsgewinn)
+ Kreuzvalidität (V. mit einer vergleichbaren Studie)
+ Logische Validität (Anerkennung durch Fachleute)
+ Mischgruppenvalidität (Stichproben zweier Population werden verglichen)
+ Multiple Validität (Zusammenhan m. breiteren Sample v. Kriterien gesichert)
+ Ökologische Validität (inwieweit praktisch)
+ Synthetische Validität (in Einzeldeterminanten zerlegt und getestet)