Psychologie


Kartei Details

Karten 310
Lernende 42
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 08.05.2018 / 25.02.2024
Weblink
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
Einbinden
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Grundlage zur Reliabilitätsbestimmung

Korrelation eines Tests mit sich selbst entstpricht seiner Reliabilität.

Erhöhung der Reliabilität des Tests

Erhöhung der Reliabilität des Tests durch die Hinzunahme paralleler Testteile => der Test wird künstlich verlängert

Ein Test ist dann parallel, wenn das gleiche Merkmal mit dem gleichen wahren Wert und mit den gleichen Fehleranteil gemessen wird.

Parallele Tests - Test q und Test p

  • weisen die gleichen wahren Werte auf
  •  gleiche Testwertvarianz und gleiche Fehlervarianzen

Merke: Reliabilität kann auch erhöht werden, wenn man die Trennschärfen ermittelt und die Items rausnimmt, die die Reliabilität senken.

Was passiert mit der Testwertvarianz, wenn man den Test verdoppelt? (Methoden der Reliabilitätsbestimmung - Paralleltest)

Verdoppelung der Länge eines Tests durch Hinzunahme eines parallelen Tests gleicher Länge, führt zu einer Verdoppelung der Fehlervarianz und zu einer Vervierfachung der wahren Varianz.

Var(xp + xq) = 2 * Var(\(ε\)) + 4 * Var(\(τ\))

Wie verhält sich die Reliabilität, wenn man den Gesamttest verdoppelt. (Zugewinn?)

Merke:

  • Die Reliabilität steigt am höchsten an, wenn der Test verdoppelt wird. Würde man den Test vervierfachen, dann wäre die Rel kleiner als hätte man den Test nur verdoppelt = negativ beschleunigte Funktion: der Zugewinn der Reliabiltiät ist mir zunehmender Verlängerung geringer.
  • Der Zugewinn der Relibilität bei Verdoppelung eines Tests mit höherer Reliabiltät ist geringer als der Zugewinn der Reliabilität bei der Verdoppelung eines Tests mit niedrigerer Reliabilität des Gesamttests.

 

 

Berechne die Reliabilität, wenn sich der Gesamttest um 0,5 verlängert, bei 10 Items
Reliabilität vor der Verlängerung beträgt dabei 0,7

Spearman-Brown-Formel:
k = Verlängerungsfaktor: drückt das Verhältnis aus zwischen Itemanzahl nach der Verlängerung geteilt durch die Itemanzahl vor der Verlängerung

Aufgabe: Bei 10 Items und einer Verlängerung von 0,5 ist die neue Anzahl der Items 15 => 15 / 10 = 1,5

Rel(k*l) = (1,5 * 0,7) / 1 + (1,5-1) * 0,7 = 1,05 / 1,35 = 0,78

Die Reliabilität wird von 0,7 auf 0,78 erhöht!

Merke: Bei Verdoppelung: 2*0,7 / 1+0,7 = 1,4 / 1,7 = 0,82
Bei Verdoppelung eines Test gibt es den höchsten Zugewinn an Reliabilität. Je größer der Test dann noch wird, dest mehr sinkt wieder die Reliabilität.

Rel(k*l) bedeutet: (Faktor, um den verlängert werden soll) * (die Itemanzahl vom ursprüglichen Test)

Methoden der Reliabilitätsbestimmung: (1/4) Paralleltest-Reliabilität

 Konstruktion zweier paralleler Tests

  • Voraussetzung: beide Tests messen das gleich (gleichen wahren Werte und gleiche Fehlervarianzen). Beweis mittels Strukturgleichungsmodell => sehr aufwendig!
  • 1 Stichprobe, 2 Tests, 1 Zeitpunkt => Rel(x) = corr(xq, xp)
  • Problem: Transfereffekte/Übungseffekte bei zweitem Test => Zweiter Test fällt meistens besser aus als der erste => Randomisierung der Reihenfolge = Cross-Over-Design
  • Nachteil: Aufwendig, weil zwei gleiche Tests konstruiert werden müssen - in der Praxis bestehen nur wenige Parallelformen, die geprüft wurden => Lohnt sich nur bei Leistungstests
  • Lösung: Testhalbierung (Split-Half-Test) ist einfacher

Wie überprüft man die Parallelität bei Paralleltest?

  • durch Bestimmung der Paralleltest-Reliabilität: gleiche Mittelwerte und Streuungen und "ausreichend" hohe Korrelation
  • Prüfung der Parallelität mittels konfirmatorischer Faktorenanalyse: gleiche Ladungen auf den gemeinsamen Faktor und gleiche Fehlervarianzen

Wie kommt es zu einer Unterschätzung der Paralletest-Reliabilität?

Jede Abweichung von der Parallelität führt zu einer Unterschätzung der Reliabilität, z.B.

  • wenn die Messungen nicht parallel sind
  • längere Zeitintervalle der Testdarbietung kann mit unsystematischen Veränderungen der wahren Werte einhergehen

Methoden der Reliabilitätsbestimmung: (2/4) Retest-Reliabilität

Standard bei homogenen Tests
Ein Testverfahren wird zweimal zu unterschiedlichen Zeitpunkten an der gleichen Stichprobe durchgeführt udn die Ergebnisse werden korreliert r(tt)

1 Stichprobe, 1 Test, 2 Zeitpunkte

Annahmen:

  • die wahren Werte der Personen zwischen den beiden Testdurchführungen erändern sich nicht
  • die Messfehlereinflüsse bleiben gleich
  • wird eher bestimmt, um zu erfahren, wie zeitlich stabil eine Merkmalsmessung ist - eher nicht, um zu bestimmen, wie messgenau eine Merkmalsmessung ist

Probleme:

  • Erinnerungseffekte/Übungseffekte
  • systematische Merkmalsveränderungen sin dnicht in der Retest-Reliabilität erkennbar
  • unsystematische Merkmalsveränderungen mindern die Retest-Reliabilität
  • unsystematische Lern- bzw. Übungseffekte mindern die Retest-Reliabilität

Lösung: Paralleltest

Methoden der Reliabilitätsbestimmung: (3/4) Split-half-Reliabilität oder Testhalbierung

  • Items eines Tests werden in zwei möglichst parallele Testhälften xa und xb aufgeteilt
  • Korrelation der beiden (parallelen) Testhälften dient zur Bestimmung der Reliabilität
  • Problem: Durch die Korrelation beider Testhälten wird die Reliabilität des Gesamttests unterschätzt => Korrektur durch die Spearman-Brown-Formel 

Merke: k-Faktor, um den der Test verlängert wird ist bei der Testhalbierung immer k=2
Beispiel: Test besteht aus 20 Items und soll auf 10 Items halbiert werden => k= Itemanzahl vor der Testhalbierung / Itemanzahl nach der Testhalbierung => 50 Items / 25 Items = 2

Es gibt 5 Möglichkeiten einen Test in zwei parallele Testhälten zu teilen (siehe Karte!)

Nennen die 3 Möglichkeiten bei einer Split-half-Reliabilität, wie ein Test in zwei parallele Testhälften geteilt werden kann?

1. Odd-Even-Methode: Ungradzahlige Items („odd“) werden der einen, gradzahlige Items („even“) der anderen Testhälfte zugeordnet -> Sinnvoll, wenn Schwierigkeiten der Items über den Test hinweg ansteigen

2. Zeitpartionierungsmethode: Einteilung des Tests in zwei gleich lange Abschnitte -> Sinnvoll bei vielen gleichartigen Items, z.B. bei Speed-Tests

3. Itemzwillinge: Suche von Paaren von Items mit möglichst gleicher Itemschwierigkeit und Trennschärfe („matching“) -> Sinnvoll bei heterogenen Tests -> sinnvoll bei heterogenen Tests

Methoden der Reliabilitätsbestimmung: (4/4) Interne Konsistenz

  • Häufigste Methode zur Schätzung der Rliabilität, wenn lediglich einmalige Messung sinnvoll ist.
  • Test wird in so viele Untertests zerlegt, wie er Items hat
  • Annahme: Jedes Item ist eine eigenständige Messung des gleichen Merkmals
  • Verallgemeinerung der Testhalbierungsmethode auf beliebig viele Testteile -> Cronbachs Alpha

Methoden der Reliabilitätsbestimmung: Interne Konsistenz - Cronbachs Alpha

Bei der Bestimmung von Cronbachs alpha wird der Test in m Testteile zerlegt und die Summe der Varianzen der Testteile zur Varianz des Gesamttests in Relation gesetzt.

m=Anzahl der Testteile
σ2 (xi)=Varianz des Testteils i
σ2 (x)=Varianz des Gesamttests

Methoden der Reliabilitätsbestimmung: Interne Konsistenz - Cronbachs Alpha -Kovarianz

  • Cronbachs alpha beruht auf dem Gedanken, dass jede Kovarianz zwischen beliebigen Testteilen als wahre Varianz σ2 (τ) betrachtet werden kann.
  • Je stärker die Testteile positiv kovariieren, desto mehr nähert sich alpha dem Wert eins an, da die Varianz des Gesamttests größer ist als die Summe der Varianzen der Testteile.
  • Wenn die Testteile keine Kovarianz aufweisen, wir alpha null, da die Varianz des Gesamttests dann gleich der Summe der Varianzen der Teiltests ist.

 

Was ist, wenn die Annahme, dass jedes Item einen parallelen Test darstellt, nicht erfüllt ist?

Ausgangspunkt ist die Annahme, dass jedes Item einen parallelen Test darstellt (gleiche wahren Werte plus gleiche Fehlervarianzen)

Dies ist häufig nicht erfüllt:

  • τ-Äquivalenz: Gleiche wahren Werte, aber unterschiedliche Fehlervarianzen
  • Essentielle τ-Äquivalenz: Wahren Werte unterscheiden sich um eine additive Konstante

Vorteile und Probleme der Methoden zur Reliabiliätsschätzung

Bei welchem Test gibt es eine Überschätzung durch Erinnerungseffekten?

Vorteile und Probleme der Methoden zur Reliabiliätsschätzung

Bei welchem Test gibt es eine Unterschätzung bei unsystematischer Merkmalsveränderung?

Vorteile und Probleme der Methoden zur Reliabiliätsschätzung

Bei welchem Test gibt es eine Unterschätzung bei heterogenen Items?

Methoden der Reliabilitätsbestimmung:  (5/4) Untere Grenze

Eine untere Grenze der Reliabiliät kann gewonnen werden, wenn jede Korrelation True score mit Gesamtvarianz ist höher als jede Korrelation mit einer anderen Variable (findet Verwendung in der Faktorenanalyse)

Wie lautet der Königsweg bei der Bestimmung der Reliabilität?

Interne Konsistenz - Cronbachs Alpha

Wie berechnet man den Anteil an der wahren Varianz wenn die Produkt-Moment-Korrelation r= 0,7 beträgt?
 

r2 = (0,7)2 = 0,49 * 100 = 49%

Der Anteil der wahren Varianz beträgt 49%.

Bei einem Test beträgt der prozentruele Anteil der wahren Varianz an der Varianz der Testwerte 81%. Wie hoch ist der entsprechende Reliabilitätskoeffizient des Tests?

81% *100 = 0,81

Merke: Nur bei der Reliabilität muss nicht quadriert werden -> alle anderen Korrelationen müssen immer quadriert werden für den aufgeklärten Varianzanteil

Die Testlänge eines Tests wird um einen parallelen Testteil verdoppelt.
Welche Auswirkungen hat dies auf die Fehlervarianz und der Varianz der wahren Werte für den neuen Gesamttest?

Wählen Sie eine Antwort.

Auf was muss man achten bei der Validität von Testwert-Interpretationen?

  • Statt von „der Validität eines Tests“ zu sprechen, ist es daher angemessener, die Validität (Gültigkeit) verschiedener möglicher Interpretationen von Ergebnissen eines Tests zu betrachten
  • Bei der Validierung, d.h. der Untersuchung der Validität von Testwertinterpretationen, sollte daher zunächst spezifiziert werden, auf welche Interpretation eines Testergebnisses sich die Validierung bezieht

Validität: Interpretationen von Testergebnissen - Nenne 5 Aspekte der Interpretation von Testergebnissen

  • das Bewerten von Ergebnissen
  • das Verallgemeinern des Ergebnisses (Rückschluss von dem Test auf andere Sittuationen)
  • das Extrapolieren über das Testergebnis hinaus (schließen auf ein Kriterium (Berufswahl)
  • das (kausale) Erklären eines Testwertes
  • das Treffen weiterführender Entscheidungen als Konsequenz aus dem Testergebnis

Validierung als theoriegeleitete Forschung

Die Validierung eines Tests ist kein immer gleiches Routineverfahren, sondern erfolgt durch theoriegeleitete Forschung.
Ziel: Unterschiedliche Interpretationen eines Testergebnisses sollen legitimiert oder auch falsifiziert werden können.

  • Vor der Validierung ist daher zunächst vor dem Hintergrund theoretischer Überlegungen und vor dem Hintergrund des Anwendungskontexts zu entscheiden, welche Interpretationen eines Testergebnisses für den jeweiligen Test am wichtigsten sind.
  • Anschließend gilt es, diese Interpretation durch geeignete theoretische Argumente und empirische Befunde zu unterstützen.

Inhaltsvalidität: 1. Operationale Konstruktdefinition

1. Bei einer operationalen Definition wird das Konstrukt allein durch die Testinhalte definiert,  z.B. an Lehrplänen orientierte Schulleistungstests.

  • Bei operational definierten Konstrukten bezieht sich Inhaltsvalidität vor allem auf die verallgemeinernde Interpretation von Testergebnissen. Es ist hierzu zu belegen, dass die Items des Tests inhaltlich den interessierenden Gegenstandsbereich, auf den verallgemeinert werden soll, umfassen abdecken. In diesem Zusammenhang wird auch von einem Repräsentationsschluss gesprochen.

Inhaltsvalidität: 2. Theoretische Konstruktdefinition

2. Bei theoretischen Konstrukten wird ein Konstrukt im Rahmen einer Theorie spezifiziert. Durch die Theorie wird spezifiziert, worauf bestimmte Unterschiede zwischen Personen zurückzuführen sind und warum dich diese Unterschiede in den Testergebnissen ausdrücken, z.B. das biologische Persönlichkeitsmodell von Eysenck.

  • Bei theoretischen Konstrukten bezieht sich Inhaltsvalidität zusätzlich zur verallgemeinernden auch auf eine erklärende Interpretation von Testergebnissen auf Itemebene. Unterschiedliche Antworten auf die Items sollen durch Unterschiede im zu erfassenden Konstrukt erklärt werden können. Ein derartiger Nachweis ist vor allem durch eine gute theoretische Fundierung und Konstruktdefinition zu leisten.

Konstruktvalididät: Theoriebasierte Testwertinterpretation

Grundidee der Konstruktvalidität im Sinne von Cronbach und Meehl (1955)

Im Bereich der Theorie werden nicht direkt beobachtbare theoretische Konstrukte und deren theoretische Zusammenhänge („Axiome“) untereinander definiert. Es werden Annahmen („Korrespondenzregeln“) formuliert, welche Konstrukte in Verbindung mit welchen beobachtbaren Testwerten stehen. Aufgrund der theoretischen Zusammenhänge von Konstrukten lassen sich entsprechende Vorhersagen für die Zusammenhänge beobachtbarer Testwerte ableiten, die empirisch überprüft werden können.

Theorie: Konstrukt A, Konstrukt B, Konstrukt C
Beobachtungen: Testwerte für Konstrukt A,  Testwerte für Konstrukt B,  Testwerte für Konstrukt C
Beziehungen: empirische Gesetze
Korrespondenzregeln: Beziehung zwischen dem theoretischen Konstrukten und den Testwerten
Problem: sehr aufwendig, fortwährender Prozess bei kausalen Zusammenhängen (Theorie sollte z.B. postulieren, wie stark der Zusammenhang sein soll, das liefern die meisten Theorien nicht!)

Konstruktvalididät: Konvergente Validität und diskriminante Validität

  • Konvergente Validität: theoretisch wird ein möglichst hoher Zusammenhang zwischen zwei Tests erwartet, z.B. wird ein neuer Intelligenztest mit einem bereits bestehenden Intelligenztest korreliert.
  • Diskriminante Validität: theoretisch wird kein oder ein niedriger Zusammenhang zwischen zwei Tests angenommen, z.B. ein Test zur Messung von Extraversion sollte keinen Zusammenhang mit Neurotizismus aufweisen.

Kriteriumsvalidität

Definition: Kriteriumsvalidität bedeutet, dass von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden. Je enger diese Zusammenhänge, desto besser kann die Kriteriumsvalidität als belegt gelten.

In der psychologischen Praxis werden Testergebnisse herangezogen, um Entscheidungen mit teilweise weit reichenden Konsequenzen für die getestete Personen zu treffen. Für derartige praktische Entscheidungen werden vor allem extrapolierende Interpretationen der Testergebnisse vorgenommen -> Validität diagnostischer Entscheidungen

Kriteriumsvalidität - Multiple Validität

  • Eine diagnostische Entscheidung kann auch auf Basis mehrerer Tests („Testbatterie“) getroffen werden.
  • Die Güte der Vorhersage eines entscheidungsrelevanten Kriteriums kann empirisch z.B. durch eine lineare Regressionsanalyse untersucht werden.
  • Der dabei gefundene Zusammenhang wird als multiple Validität bezeichnet.

Kriteriumsvalidität - Inkrementelle Validität

  • Die inkrementelle Validität bezeichnet das Ausmaß, indem die Vorhersage eines Kriteriums durch die Hinzunahme eines weiteren Tests (Prädiktors) verbessert werden kann. Sie kann in einer multiplen Regression durch den Zuwachs an erklärter Varianz bei der Vorhersage eines externen Kriteriums ermittelt werden. Hierbei gilt es vor allem, eine ökonomische Entscheidung zu treffen, welcher zusätzliche diagnostische Aufwand noch zu einer lohnenden Verbesserung der Entscheidungsgrundlage führt.
  • Inkrementelle Validität haben z.B. folgende Kombinationen: Persönlichkeitsverfahren und biographische Daten, Persönlichkeitsverfahren und Assessment Center, allgemeine Intelligenz und biographische Daten (biodata/biographical data), Persönlichkeitsverfahren und allgemeine Intelligenz.

Wahl einer geeigneten Validierungsstrategie - Beispiel für Validierung mit Schwerpunkt auf dem Repräsentationsschluss

  • Wenn ein Test die Erfüllung eines Lehrplans prüfen soll, ist die wichtigste Interpretation des Testergebnisses eine Verallgemeinerung auf das Lernziel.
  • Der wichtigste Beleg für die Zuverlässigkeit dieser Verallgemeinerung („curriculare Validität“) besteht darin, dass sich Experten einig sind, dass die Testinhalte die im Lehrplan definierten Fähigkeiten gut repräsentieren.
  • Für die Validität der Testwertinterpretation ist es hingegen unbedeutend, welche Zusammenhänge die Leistungen im Test mit anderen Tests (zum Beispiel Intelligenz- oder Persönlichkeitstests) aufweisen.

Wahl einer geeigneten Validierungsstrategie - Beispiel für Validierung mit Schwerpunkt auf theoriebasierter Testwertinterpretation

  • Für einen Test, der im Kontext psychologischer Forschung das theoretische Konstrukt Extraversion erfassen soll, ist es am wichtigsten, dass die Testergebnisse tatsächlich auf dieses Konstrukt zurückzuführen sind.
  • Eine umfassende Konstruktvalidierung anhand der Vorhersage experimenteller Effekte und der korrelativen Zusammenhänge mit anderen theoretisch relevanten Variablen ist hier die adäquate Strategie zur Stützung dieser Testwertinterpretation.
  • Ob sich z.B. anhand des Testergebnisses die Eignung für bestimmte Berufe prognostizieren lässt, ist hier unbedeutend.

Wahl einer geeigneten Validierungsstrategie - Beispiel für Validierung mit Schwerpunkt auf diagnostischen Entscheidungen

  • Wenn mit einem Test oder einer Testbatterie die Bewerberinnen für einen Studiengang ausgewählt werden sollen, ist es am wichtigsten, dass von den Testergebnissen auf praktisch relevante Kriterien wie Studiendauer und Abschlussnote geschlossen werden kann.
  • Um diese Interpretation zu rechtfertigen, muss der Zusammenhang zwischen den Testergebnissen und den Kriterien empirisch nachgewiesen werden.
  • In diesem Kontext ist es meistens irrelevant, mit welchen anderen Variablen die Testergebnisse in welcher Weise zusammenhängen.

Welche Facette der Validität setzt voraus, dass mindestens zwei Pädiktoren zur Vorhersage eines Kriteriums zur Verfügung stehen?

Faktoranalyse 

  • Definition
  • Ziel
  • Verwendung

  • Definition: Der Begriff „Faktorenanalyse“ umfasst eine Gruppe von multivariaten Verfahren, mit denen zugrunde liegende gemeinsame Dimensionen von Variablenmengen (z.B. Fragebogenitems) untersucht werden.
  • Ziel: Datenreduktion, Überprüfung der Konstruktvalidität von Tests
  • Verwendung: Itemanalyse, Konstruktvalidierung

Faktorenanalyse - Itemselektion nach Faktorladungen

Hohe Faktorladung indiziert starken Zusammenhang zwischen Item und Faktor => Itemantworten werden in hohem Maße durch Faktorwerte beeinflusst.

Faktorenanalyse - Homogenität im Sinne der Faktorenanalyse

Passung zur Annahme einer eindimensionalen Faktorenstruktur => Erklärung der Itemkovariationen durch eine gemeinsame Faktorvariable