Lernkartei Testtheorie und Fragebogenkonstruktion

Karten	310
Lernende	42
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	08.05.2018 / 25.02.2024
Weblink	https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
Einbinden	<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Welche Forderung ergibt sich aufgrund des beobachteten sog. Flynn-Effekts für die Normierung von Testverfahren?

Wählen Sie eine oder mehrere Antworten.

Die Normen sollten in einem der Fragestellungen entsprechenden Kontext erhoben worden sein.

Die Normen sollten für relevante Untergruppen differenziert berichtet werden.

Die Bildung von z-Normen sollten gegenüber der Bildung von Prozenträngen nach Möglichkeit das Verfahren der Wahl sein.

Die Normen sollten regelmäßig aktualisiert werden.

Die Normstichprobe sollte ausreichend groß sein.

Die Normen sollten in einem der Fragestellungen entsprechenden Kontext erhoben worden sein.

Die Normen sollten für relevante Untergruppen differenziert berichtet werden.

Die Bildung von z-Normen sollten gegenüber der Bildung von Prozenträngen nach Möglichkeit das Verfahren der Wahl sein.

Die Normen sollten regelmäßig aktualisiert werden.

Die Normstichprobe sollte ausreichend groß sein.

Eine Person hat einen z-Normwert von -2,5.

Welchen T-Wert entspricht diese Angabe?

50 + 10 * (-2,5) = 50 + (-25) = 25

Probleme der klassischen Testtheorie

Schwächen bezüglich der Skalierung
Schwächen bezüglich der Konstruktvalidität
Heterogenität von Populationen
Paradoxe Zusammenhänge zwischen Gütekriterien
Antworttendenzen

Für was brauchen wir die Axiome in der KTT?

Die Axiome der KTT ermöglichen es, die Genauigkeit einer Messung einzuschätzen
Dies basiert auf den grundlegenden Annahmen über den wahren Wert (true score) und den Messfehler
Die Axiome werden nicht weiter hinterfragt und sind nicht prüfbar
Die KTT beinhaltet die notwendigen Überlegungen, um aus einer Anzahl von Messungen x_vi an Probanden in bestimmten Items auf die wahre Ausprägung \(τ\)_vvon Probant v im untersuchten Merkmal schließen zu können.

Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben.

Die Reliabilität Rel bezeichnet die Messgenauigkeit eines Tests und ist als Anteil der Varianz der wahren Werte an der Varianz der beobachteten Testwerte x definiert:

Unterschiedliche Methoden zur Bestimmung der Reliabilität.

Probleme der KTT: Schwächen bezüglich der Skalierung

Zentrale Annahme der KTT: (siehe Formel)

-> Nicht überprüfbar, da sowohl der wahre Wert wie auch der Fehler nicht direkt beobachtbar sind => „Modellgültigkeit“ ist also empirisch nicht nachweisbar

Skalenniveau der Testwerte xvi kann nicht überprüft werden => KTT setzt aber Intervallskalenniveau voraus

Qualitative Beobachtungen werden in ein Testergebnis x_viumgewandelt
Statt x_vi könnte aber auch eine Funktion f(xvi) verwendet werden -> Diese Transformation darf aber die Zuverlässigkeit eines Tests nicht beeinflussen, d.h die Reliabilität des Tests muss invariant gegenüber Transformationen xv_{vi ->}f(x_vi) sein, wenn das Testergebnis wissenschaftlich sinnvoll sein soll.
siehe Bild

Probleme der KTT: Schwächen bezüglich der Konstruktvalidität

Homogenität der Testitems bezüglich des jeweils untersuchten Merkmals ist anhand der Modellannahmen nicht überprüfbar
Dies ist aber die Voraussetzung für die Berechnung des Testwerts als Summen- oder Mittelwert über alle Items
Homogenitätsbeurteilung erfolgt ersatzweise über Itemtrennschärfen, Iteminterkorrelationen (als Basis der internen Konsistenz) und Faktorenanalyse -> Merkmal ist nur operational definiert!

Probleme der KTT: Heterogenität von Populationen

Abhängigkeit der Reliabilität von der (Sub-)Population bzw. Stichprobe

-> Die Reliabilität ist keine Eigenschaft des Tests an sich, sondern eine Eigenschaft des Tests in Bezug auf eine Population mit ihrer gegebenen Variabilität hinsichtlich des latenten Merkmals.

=> Reliabilität und Validität sollten eine Eigenschaft des Tests sein, d.h. sie sollten invariant gegenüber der Population bzw. Stichprobe sein.

Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Maximal erreichbare Validität!

Maximal erreichbare Validität (hier Kriteriumsvalidität): Kriteriumsvalidität anhand der Korrelation zwischen den Testwerten x und den Kriteriumswerten y => in der Regel sind in beiden Werten Messfehler enthalten => die wahre Validität wird unterschätzt.

Merke: Die wahre Validität eines Tests wird stets unterschätzt und das umso mehr, je größer der Messfehler ist!

Im Rahmen der Messfehlertheorie gilt die Beziehung, dass die Korrelation zweier Variablen stets kleiner sein muss als die Wurzel aus der Reliabilität der Variablen mit der geringeren Reliabilität:

Bsp: Man nimmt die kleinste Reliabilität: Rel = 0,81 => Wurzel aus 0,81 = 0,9 => Seine Validität kann nicht größer als .90 sein.

Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Maximal erreichbare Validität!

Beispiel: Rel = 0.81; kleinste Rel= 0,64; Korrelation = 0,6
Wie hoch wäre die Validität, wenn der Test und/oder das Validitätskriterium reliabler wäre?

Verdünnungsformel = Spearmans Minderungskorrektur: Validität ist die Korrelation dividiert durch die Wurzel der beiden Reliabilitäten
Validität: 0,6 / ( Wurzel aus (0,81 * 0,64)) = 0,6 / 0,715 = 0,839

Merke: Messfehler senkt die Korrelation - nimmt man den Messfehler raus, steigt die Korrelation.
Bild unten: Hier wird jeweil aus den beiden Reliabilitäten der Messfehler rausgerechnet =>
Korrelation 0,60 -> 0,67 wenn die Rel = 0.81 ist
Korrelation 0.60 -> 0,75 wenn die Rel = 0,64 ist

=> je kleiner die Reliabilität, desto größer der Messfehler

Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Trennschärfe gegen Validität

Ist eine Optimierung von Validität und Reliabilität möglich?

Widersprüch lässt sich im Rahmen der KTT ableiten:
Imtemantworten = fehlerbehaftete Messwerte
Valitdität eines Items = Korrelation mit dem Kriterium
Reliabilität = Trennschärfe (Res ist abhängig von der Trennschärfe)

Jedes Item und der Gesamtscore erfassen die gleiche Variable mit unterschiedlicher Genauigkeit, daher Reliabilität ungleich Trennschärfe -> Reliabilität eines Items ist stest kleiner als die Trennschärfe

=> Reliabilitäts-Validitäts-Dilemma
Die Kriteriumsvalidität sinkt mit steigenden Itemtrennschärfen bei gegebenen Itemvaliditäten
=> Eine Erhöhung der Trennschärfe, erhöht man die Reliabilität des Tests, aber verringert gleichzeitig die Validität des Tests

Probleme der KTT: Antworttendenzen

Beispiel „Personal Need for Structure“
Es gefällt mir, wenn ich ein klares und strukturiertes Leben habe.
Ich bin ungern mit Leuten zusammen, deren Verhalten nicht vorhersehbar ist.
Ich fühle mich unwohl, wenn die Regeln in einer Situation unklar sind.

(Antwortformat: 1 „trifft gar nicht zu“ – 6 „trifft vollkommen zu“

Hoher Testwert

Hohe Merkmalsausprägung
Moderat hohe Merkmalsausprägung mit Tendenz zu extremen

Mittlerer Testwert

Mittlere Merkmalsausprägung
Hohe Merkmalsausprägung mit Tendenz zu mittleren Antworten

Testtheorie

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

- Theorie über den Zusammenhang zwischen latenter (nicht beobachtbaren) Eigenschaft und beobachtbarem Testverhalten.
Oder: Formale Modelle über den Zusammenhang zwischen latenten Eigenschaften und beobachtbaren Tesergebnissen (Teswerten oder Itemantworten)
- Grundlage der Testkonstrution, Testanalyse, Testauswrtung und Testinterpretation.

Anliegen des psychologischen Testens

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Erfassen latenter Eigenschaftsausprägung durch beobachtbares Verhalten
Rückschluss auf latente Eigenschaft aufgrund von mehreren Verhaltesbeobachtungen/Reaktionen auf mehrere Testitems

("Geht gerne auf Partys" => Extraversion = 120 Was sagt die Zahl 120 aus, auf mein latentes Merkmal, was dem zugrunde liegt?)

Testauswertung

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Rückschluss vom Testergebnis auf latente Eigenschaft oder Fähigkeit

Test

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Ein Test ist ein wisschenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkamle mit dem Ziel einer möglischt genauen quantitativen Aussage über den Grad der individuellen Merkamlsausprägung.

Indikator

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

beobachtbare Variable / manifeste Variable

Kausalität des Reflexives Messmodells
Kausalität des Formativen Messmodells

Reflexives Messmodell: Hohe Korrelationen unter den Indikationen werden als ein Hinweis auf die Validität und Reliabilität des Messmodells angesehen.

Formatives Messmodell: die Richtung der Kausalität ist entgegengesetzt, die Indikationen verusrsachen das latente Konstrukt.

Nichtbeobachtbare Variable

theoretisches Konstrukt, latente Varible

Objektivität (Hauptgütekriterium)

Unabhängigkeit des Testergebnisses von Einflüssen außerhalb der getesteten Person.
Grad der Unabhängigkeit des Testerbebnisses von/vom

Testleiter
Sitautionsmerkmalen
Testauswerter
usw.

Durchführungsobjektivität (1/3)

Unabhängigkeit vom Verhalten des Versuchsleiter
(=> Standardisierung der Instruktion und Testdurchführung (Befragung am Computer): Situationsmerkmale haben einen geringen Einfluss auf die Testergebnisse)

Auswertungsobjektivität (2/3)

Unabhängigkeit vom Testauswerter
(=> geschlossenes Antwortformat mit algorithmischer Auswertung)

Testtheorie und Fragebogenkonstruktion

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google