Testtheorie und Fragebogenkonstruktion
Psychologie
Psychologie
Kartei Details
Karten | 310 |
---|---|
Lernende | 42 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 08.05.2018 / 25.02.2024 |
Weblink |
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
|
Einbinden |
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Welche Forderung ergibt sich aufgrund des beobachteten sog. Flynn-Effekts für die Normierung von Testverfahren?
Wählen Sie eine oder mehrere Antworten.
Was trifft auf Prozentrangnormen zu?
Wählen sie eine oder mehrere Antworten.
Eine Person hat einen z-Normwert von -2,5.
Welchen T-Wert entspricht diese Angabe?
50 + 10 * (-2,5) = 50 + (-25) = 25
Probleme der klassischen Testtheorie
- Schwächen bezüglich der Skalierung
- Schwächen bezüglich der Konstruktvalidität
- Heterogenität von Populationen
- Paradoxe Zusammenhänge zwischen Gütekriterien
- Antworttendenzen
Für was brauchen wir die Axiome in der KTT?
- Die Axiome der KTT ermöglichen es, die Genauigkeit einer Messung einzuschätzen
- Dies basiert auf den grundlegenden Annahmen über den wahren Wert (true score) und den Messfehler
- Die Axiome werden nicht weiter hinterfragt und sind nicht prüfbar
- Die KTT beinhaltet die notwendigen Überlegungen, um aus einer Anzahl von Messungen xvi an Probanden in bestimmten Items auf die wahre Ausprägung \(τ\)v von Probant v im untersuchten Merkmal schließen zu können.
Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben.
-> Nicht überprüfbar, da sowohl der wahre Wert wie auch der Fehler nicht direkt beobachtbar sind => „Modellgültigkeit“ ist also empirisch nicht nachweisbar
Skalenniveau der Testwerte xvi kann nicht überprüft werden => KTT setzt aber Intervallskalenniveau voraus
- Qualitative Beobachtungen werden in ein Testergebnis xvi umgewandelt
- Statt xvi könnte aber auch eine Funktion f(xvi) verwendet werden -> Diese Transformation darf aber die Zuverlässigkeit eines Tests nicht beeinflussen, d.h die Reliabilität des Tests muss invariant gegenüber Transformationen xvvi -> f(xvi) sein, wenn das Testergebnis wissenschaftlich sinnvoll sein soll.
- siehe Bild
Probleme der KTT: Schwächen bezüglich der Konstruktvalidität
- Homogenität der Testitems bezüglich des jeweils untersuchten Merkmals ist anhand der Modellannahmen nicht überprüfbar
- Dies ist aber die Voraussetzung für die Berechnung des Testwerts als Summen- oder Mittelwert über alle Items
- Homogenitätsbeurteilung erfolgt ersatzweise über Itemtrennschärfen, Iteminterkorrelationen (als Basis der internen Konsistenz) und Faktorenanalyse -> Merkmal ist nur operational definiert!
-> Die Reliabilität ist keine Eigenschaft des Tests an sich, sondern eine Eigenschaft des Tests in Bezug auf eine Population mit ihrer gegebenen Variabilität hinsichtlich des latenten Merkmals.
=> Reliabilität und Validität sollten eine Eigenschaft des Tests sein, d.h. sie sollten invariant gegenüber der Population bzw. Stichprobe sein.
Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Maximal erreichbare Validität!
Maximal erreichbare Validität (hier Kriteriumsvalidität): Kriteriumsvalidität anhand der Korrelation zwischen den Testwerten x und den Kriteriumswerten y => in der Regel sind in beiden Werten Messfehler enthalten => die wahre Validität wird unterschätzt.
Merke: Die wahre Validität eines Tests wird stets unterschätzt und das umso mehr, je größer der Messfehler ist!
Im Rahmen der Messfehlertheorie gilt die Beziehung, dass die Korrelation zweier Variablen stets kleiner sein muss als die Wurzel aus der Reliabilität der Variablen mit der geringeren Reliabilität:
Bsp: Man nimmt die kleinste Reliabilität: Rel = 0,81 => Wurzel aus 0,81 = 0,9 => Seine Validität kann nicht größer als .90 sein.
Verdünnungsformel = Spearmans Minderungskorrektur: Validität ist die Korrelation dividiert durch die Wurzel der beiden Reliabilitäten
Validität: 0,6 / ( Wurzel aus (0,81 * 0,64)) = 0,6 / 0,715 = 0,839
Merke: Messfehler senkt die Korrelation - nimmt man den Messfehler raus, steigt die Korrelation.
Bild unten: Hier wird jeweil aus den beiden Reliabilitäten der Messfehler rausgerechnet =>
Korrelation 0,60 -> 0,67 wenn die Rel = 0.81 ist
Korrelation 0.60 -> 0,75 wenn die Rel = 0,64 ist
=> je kleiner die Reliabilität, desto größer der Messfehler
Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Trennschärfe gegen Validität
Ist eine Optimierung von Validität und Reliabilität möglich?
Widersprüch lässt sich im Rahmen der KTT ableiten:
Imtemantworten = fehlerbehaftete Messwerte
Valitdität eines Items = Korrelation mit dem Kriterium
Reliabilität = Trennschärfe (Res ist abhängig von der Trennschärfe)
Jedes Item und der Gesamtscore erfassen die gleiche Variable mit unterschiedlicher Genauigkeit, daher Reliabilität ungleich Trennschärfe -> Reliabilität eines Items ist stest kleiner als die Trennschärfe
=> Reliabilitäts-Validitäts-Dilemma
Die Kriteriumsvalidität sinkt mit steigenden Itemtrennschärfen bei gegebenen Itemvaliditäten
=> Eine Erhöhung der Trennschärfe, erhöht man die Reliabilität des Tests, aber verringert gleichzeitig die Validität des Tests
Probleme der KTT: Antworttendenzen
Beispiel „Personal Need for Structure“
Es gefällt mir, wenn ich ein klares und strukturiertes Leben habe.
Ich bin ungern mit Leuten zusammen, deren Verhalten nicht vorhersehbar ist.
Ich fühle mich unwohl, wenn die Regeln in einer Situation unklar sind.
(Antwortformat: 1 „trifft gar nicht zu“ – 6 „trifft vollkommen zu“
Hoher Testwert
- Hohe Merkmalsausprägung
- Moderat hohe Merkmalsausprägung mit Tendenz zu extremen
Mittlerer Testwert
- Mittlere Merkmalsausprägung
- Hohe Merkmalsausprägung mit Tendenz zu mittleren Antworten
Welche Auswirkungen hat das so genannte Reliabilitäts-Validitäts-Dilemma?
Wählen Sie eine oder mehrere Antworten
Was sind bekannte Probleme der KTT?
Wählen Sie eine oder mehrere Antworten:
Was trifft auf die Itemschwierigkeit zu? Wählen Sie eine Antwort.
Was trifft auf die Itemvarianz zu? Wählen Sie eine Antwort.
In welchem Fall ist eine Anwendung der sogenannten Ratekorrektur innerhalb der deskriptivstatistischen Evaluation denkbar?
In der unten dargestellten Tabelle finden Sie die Statistiken zu einzelnen Items. Alle Items gehören zur selben Skala. Die Items messen verschiedene Facetten der Arbeitszufriedenheit mit der Skala: "gar nicht zufrieden" (5), "eher nicht zufrieden" (4), "unentschieden" (3), "überwiegend zufrieden" (2) und "sehr zufrieden" (1). Sämtliche Items sind so formuliert, dass ein hoher Wert für Unzufriedenheit steht. Die Trennschärfe stellt in diesem Fall die korrigierte Trennschärfe dar.
Welche Aussage ist nicht zutreffend?
Wählen Sie eine Antwort:
Ein Test zur Messung von "Zustandsangst" (Angst als State) besteht aus fünf (5) Items. Für die Items aus dem Test sind folgende Kennwerte bekannt. Für die Messung der Items wurden 5-stufige Ratingskalen verwerdet: von 1 (stimme überhaupt nicht zu) bis 5 (stimme voll zu).
Welche Aussage ist zutreffend?
Wählen Sie eine Antwort:
Testtheorie
- Theorie über den Zusammenhang zwischen latenter (nicht beobachtbaren) Eigenschaft und beobachtbarem Testverhalten.
Oder: Formale Modelle über den Zusammenhang zwischen latenten Eigenschaften und beobachtbaren Tesergebnissen (Teswerten oder Itemantworten)
- Grundlage der Testkonstrution, Testanalyse, Testauswrtung und Testinterpretation.
Anliegen des psychologischen Testens
- Erfassen latenter Eigenschaftsausprägung durch beobachtbares Verhalten
- Rückschluss auf latente Eigenschaft aufgrund von mehreren Verhaltesbeobachtungen/Reaktionen auf mehrere Testitems
("Geht gerne auf Partys" => Extraversion = 120 Was sagt die Zahl 120 aus, auf mein latentes Merkmal, was dem zugrunde liegt?)
Testauswertung
Rückschluss vom Testergebnis auf latente Eigenschaft oder Fähigkeit
Test
Ein Test ist ein wisschenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkamle mit dem Ziel einer möglischt genauen quantitativen Aussage über den Grad der individuellen Merkamlsausprägung.
Indikator
beobachtbare Variable / manifeste Variable
Kausalität des Reflexives Messmodells
Kausalität des Formativen Messmodells
Reflexives Messmodell: Hohe Korrelationen unter den Indikationen werden als ein Hinweis auf die Validität und Reliabilität des Messmodells angesehen.
Formatives Messmodell: die Richtung der Kausalität ist entgegengesetzt, die Indikationen verusrsachen das latente Konstrukt.
Nichtbeobachtbare Variable
theoretisches Konstrukt, latente Varible
Objektivität (Hauptgütekriterium)
Unabhängigkeit des Testergebnisses von Einflüssen außerhalb der getesteten Person.
Grad der Unabhängigkeit des Testerbebnisses von/vom
- Testleiter
- Sitautionsmerkmalen
- Testauswerter
- usw.
Durchführungsobjektivität (1/3)
- Unabhängigkeit vom Verhalten des Versuchsleiter
(=> Standardisierung der Instruktion und Testdurchführung (Befragung am Computer): Situationsmerkmale haben einen geringen Einfluss auf die Testergebnisse)
Auswertungsobjektivität (2/3)
- Unabhängigkeit vom Testauswerter
(=> geschlossenes Antwortformat mit algorithmischer Auswertung)
-
- 1 / 310
-