Testtheorie und Fragebogenkonstruktion
Psychologie
Psychologie
Fichier Détails
Cartes-fiches | 310 |
---|---|
Utilisateurs | 42 |
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 08.05.2018 / 25.02.2024 |
Lien de web |
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
|
Intégrer |
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Normorientiertes Testen: Beispiel: Horst hat einen Testwert v= 24. Der Depressions-Mittelwert ist 21 und die Standardabweichung von Horst ist s = 1,5
Berechne den z-Wert:
z = (24 - 21) / 1,5 = +2
Horst liegt 2 Standardabweichung über dem Durchschnitt
Merke: z-Werte liegen zwischen -unendlich und +unendlich
Interpretation von Testresultaten und Testeichung - Normorientiertes Testen - Zusätzliche Transformation des zv -Normwerte
Da mit der Bildung von z-Normen negative Vorzeichen und Dezimalstellen einhergehen, ist ihre Verwendung eher unüblich.
z-Werte können von -unendlich bis +unendlich sein.
Stattdessen werden die z-Normwerte weiteren Lineartransformationen unterzogen, um die Normwerte mit positivem Vorzeichen sowie möglichst ganzzahliger Abstufung zu erhalten.
Interpretation von Testresultaten und Testeichung - Normorientiertes Testen - Zusätzliche Transformation des zv -Normwerte - Beispiel:
Eine Testperson habe in einem Intelligenztest mit dem Mittelwert von = 31 und der Standardabweichung von SD(x) = 12 einen Testwert von xv = 27 erzielt.
Ermittle den IQ-Wert.
Der zv -Normwert ergibt sich folgendermaßen:
zv =(27 - 31) / 12 = -0,33
Aus dem zv -Normwert kann der Intelligenz-Quotient wie folgt bestimmt werden
IQv = 100 + 15 * zv = 100 + 15 * (-0.33) = 95
Norm- vs. kriteriumsorientiertes Testen: Normdifferenzierung: Wie spezifisch soll eine Vergleichsgruppe sein?
Eine Normdifferenzierung ist ggf. dann erforderlich, wenn mit dem Untersuchngsmerkmal korrelierte Hintergrundfaktoren (z.B. Alter, Geschlecht, Bildung) der Testpersonen nicht mit jenen der Verleichsgruppe übereinstimmen => allerdings kann eine Überanpassung von Normen zu einer Fehleinschätzung und einer Verzerrung der Normalität führen.
Norm- vs. kriteriumsorientiertes Testen: Testeichung
Testeichung ist der letzte Schritt zur Testkonstruktion zur Bildung von Testnormen.
- Definition der Zielpopulation unter Berücksichtigung von Anwenderinteressen (ggf. Normdifferenzierung notwendig!)
- Repräsentativtät der Normstichprobe bzgl. der Zielpopulation durch ein geeignetes Erhebungsdesign sicherstellen (globale vs. spezifische Reräsentativität
- Umfang der Normierungsstichprobe ist abhängigi von der Normabstufung (z.B. Qartil vs. Przentran-Norm), Reliabilität, Geltungsbereich des Tests
- Nach der Datenerhebug sollte die Verteilungseigenschaften geprüft werden
- Überprüfung der Gültigkeit der Normen nach spätestens 8 Jahren (Flynn-Effekt)
- Dokumentation der Normen im testmanual: Zielpopulation, Erhebungsdesign, Stichproben, Deskriptive Statistiken, Erhebungsjahr.
Interpretation von Testresultaten und Testeichung - Kriteriumsorientierte Testwertinterpretation
Insbesondere im Leistungsbereich sind auch kriterienorientierte Tests zu finden: Es interessiert, ob ein bestimmter Wert erreicht wird => Hierbei interessiert nicht, wie viele Personen das Kriterium erfüllen (theoretisch könnten alle getesteten Personen ein Kriterium erreichen oder aber keine einzige)
Merke: Kriterienorientiert interpretierbare Tests können jederzeit auch normorientiert verwendet werden, nicht jedoch umgekehrt.
Interpretation von Testresultaten und Testeichung - Kriteriumsorientierte Testwertinterpretation
Wie hängen Kriteriumsorientierte und normorientierte Testwertinterpretationen zusammen?
Kriterienorientiert interpretierbare Tests können jederzeit auch normorientiert verwendet werden, nicht jedoch umgekehrt!
Interpretation von Testresultaten und Testeichung - Kriteriumsorientierte Testwertinterpretation - Schwellenwerte
Welche zwei Möglichkeiten gibt es um einen Schwellenwert zu ermitteltn?
Um eine kriteriumsorientierte Interpretation eines Testwertes vorzunehmen, werden i.d.R. vorab bestimmte Schwellenwerte definiert, ab denen ein Kriterium als zutreffend angenommen wird.
- Bezug zu einem externen Kriterium; das Vorliegen des externen Kriteriums muss in diesen Untersuchungen zusätzlich zu den individuellen Testwerten erfasst werden.
- Bezug auf die Testinhalte, wenn die Items eine repräsentative Stichprobe aller möglichen Items darstellen.
Interpretation von Testresultaten und Testeichung - Kriteriumsorientierte Testwertinterpretation - Schwellenwerte - Untersuchung eines externes Kriterium - Beispiel - Teil 1: Vierfelder-Tafel
In einem Depressivitätstest können 0-35 Punkte erzielt werden.
In einer Untersuchung beantworten Patienten mit einer Major Depression und eine Kontrollgruppe den Test.
Die Diagnose „Major Depression“ ist hierbei separat mit einem aufwendigen klinischen Interview (z.B. SKID) erhoben worden.
Der Schwellenwert kann z.B. mittel einer ROC-Analyse (ReceiverOperator-Characteristics-Analyse) ermittelt werden: Vier-Felder-Tafel
Aufgrund des Unterschieds zwischen beiden Gruppen kann ein Schwellenwert ermittelt werden, ab dem das Vorliegen einer Major Depression angenommen werden sollte => Dabei strebt man in der Regel ein optimales Gleichgewicht zwischen Sensitivität und Spezifität an.
Eine Erhöhung der Sensitivität (Trefferquote) führt zu einer Verringerung der Spezifität (Quote korrekter Ablehnung)
Wenn die Sensitivität und die Spezifität als gleich wichtig erachtet wird, dann nimmt man ein optimales Gleichgewicht zwischen der Sensitivität und der Spezifität an = Youden-Index: für alle möglichen cut-off-Werte (Schwellenwerte) wird die Sensitivität und die Spezifität ermttelt, es wird der wert als cut-off-Wert bestimmt, bei dem die Summe von der Senitivität und der Spezifität maximal ist.
Youden-Index: Sensitivität + Spezifität - 1: Trefferquote + Quote korrekter Ablehnung -1
Interpretation von Testresultaten und Testeichung - Kriteriumsorientierte Testwertinterpretation - Schwellenwerte - Repräsentative Stichprobe - Beispiel
In einer Fremdsprache soll ein Grundwortschatz der häufigsten 1000 Wörter erlernt werden.
Ein Vokabeltest kann konstruiert werden, indem eine Stichprobe aus diesen 1000 Wörtern gezogen wird.
Wenn ein Schüler in diesem Test 75% der Items lösen kann, kann man schließen, dass er 75% des Grundwortschatzes beherrscht. Für das hinreichend sichere Beherrschen des Grundwortschatzes kann ein Schwellenwert von z.B. 90% festgelegt werden.
Was ist der (häufigste) Fehler, der hier passieren kann?
Häufiger Fehler: Kriteriumsorientierte Interpretation anhand der Antwortskala
Bei Lernziel- oder Leistungstests kann eine kriteriumsorientierte Interpretation durch eine entsprechende Itemauswahl möglich werden -> Im Falle von Fragebögen ist dieses Vorgehen i.d.R. nicht möglich: die Schwierigkeiten der Items eines Fragebogens wird nicht nur durch die Inhalte, sondern auch durch die verbale Formulierung beeinflusst.
Siehe Grafik: Zwei unterschiedlich schwierige Fragebogenitems zur Erfassung derselben depressiven Symptomatik mit einer vierstufigen Antwortskala.
Interpretation von Testresultaten und Testeichung - Norm- vs. kriteriumsorientiertes Testen - Integration von norm- und kriteriumsorientierter Testwertinterpretation
Norm- und kriteriumsorientierte Testwertinterpretationen schließen sich nicht gegenseitig aus, vielmehr ist je nach Anwendungsfall die eine oder andere Art vorherrschend => Beide Arten der Testwertinterpretation können sich ergänzen, z.B. bei der Beurteilung der Schulleistung (Bezug zum Lehrziel und zur Klasse)
Merke: Bei der Setzung von (Auswahl-)Standards können im Falle konfligierender Interessenlagen norm- und kriteriumsorientierte Testwertinterpretationen zu unvereinbaren Zielsetzungen führen.
Was ist charakteristisch für normorientierte Tests?
Wählen Sie eine oder mehrere Antworten.
Eine Testperson hat in einen Intelligenzwert einen Testwrt (Summenscore) von 50. Der Mittelwert des Tests beträgt 60, die Standardabweichung beträgt 20.
Welchen Intelligenz-Quotienten entsprcht der Testwert? (Gehen Sie davon aus, dass Normalverteilung der Testwerte gegeben ist.
zv = (50 - 60) / 20 = -0,5
IQ: 100 + 15 * (-0,5) = 100 - 7,5 = 92,5
=> bei IQ wird immer aufgerundet => 93
Welche Forderung ergibt sich aufgrund des beobachteten sog. Flynn-Effekts für die Normierung von Testverfahren?
Wählen Sie eine oder mehrere Antworten.
Was trifft auf Prozentrangnormen zu?
Wählen sie eine oder mehrere Antworten.
Eine Person hat einen z-Normwert von -2,5.
Welchen T-Wert entspricht diese Angabe?
50 + 10 * (-2,5) = 50 + (-25) = 25
Probleme der klassischen Testtheorie
- Schwächen bezüglich der Skalierung
- Schwächen bezüglich der Konstruktvalidität
- Heterogenität von Populationen
- Paradoxe Zusammenhänge zwischen Gütekriterien
- Antworttendenzen
Für was brauchen wir die Axiome in der KTT?
- Die Axiome der KTT ermöglichen es, die Genauigkeit einer Messung einzuschätzen
- Dies basiert auf den grundlegenden Annahmen über den wahren Wert (true score) und den Messfehler
- Die Axiome werden nicht weiter hinterfragt und sind nicht prüfbar
- Die KTT beinhaltet die notwendigen Überlegungen, um aus einer Anzahl von Messungen xvi an Probanden in bestimmten Items auf die wahre Ausprägung \(τ\)v von Probant v im untersuchten Merkmal schließen zu können.
Die Messgenauigkeit eines Tests lässt sich im Rahmen der KTT mit der Reliabilität beschreiben.
-> Nicht überprüfbar, da sowohl der wahre Wert wie auch der Fehler nicht direkt beobachtbar sind => „Modellgültigkeit“ ist also empirisch nicht nachweisbar
Skalenniveau der Testwerte xvi kann nicht überprüft werden => KTT setzt aber Intervallskalenniveau voraus
- Qualitative Beobachtungen werden in ein Testergebnis xvi umgewandelt
- Statt xvi könnte aber auch eine Funktion f(xvi) verwendet werden -> Diese Transformation darf aber die Zuverlässigkeit eines Tests nicht beeinflussen, d.h die Reliabilität des Tests muss invariant gegenüber Transformationen xvvi -> f(xvi) sein, wenn das Testergebnis wissenschaftlich sinnvoll sein soll.
- siehe Bild
Probleme der KTT: Schwächen bezüglich der Konstruktvalidität
- Homogenität der Testitems bezüglich des jeweils untersuchten Merkmals ist anhand der Modellannahmen nicht überprüfbar
- Dies ist aber die Voraussetzung für die Berechnung des Testwerts als Summen- oder Mittelwert über alle Items
- Homogenitätsbeurteilung erfolgt ersatzweise über Itemtrennschärfen, Iteminterkorrelationen (als Basis der internen Konsistenz) und Faktorenanalyse -> Merkmal ist nur operational definiert!
-> Die Reliabilität ist keine Eigenschaft des Tests an sich, sondern eine Eigenschaft des Tests in Bezug auf eine Population mit ihrer gegebenen Variabilität hinsichtlich des latenten Merkmals.
=> Reliabilität und Validität sollten eine Eigenschaft des Tests sein, d.h. sie sollten invariant gegenüber der Population bzw. Stichprobe sein.
Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Maximal erreichbare Validität!
Maximal erreichbare Validität (hier Kriteriumsvalidität): Kriteriumsvalidität anhand der Korrelation zwischen den Testwerten x und den Kriteriumswerten y => in der Regel sind in beiden Werten Messfehler enthalten => die wahre Validität wird unterschätzt.
Merke: Die wahre Validität eines Tests wird stets unterschätzt und das umso mehr, je größer der Messfehler ist!
Im Rahmen der Messfehlertheorie gilt die Beziehung, dass die Korrelation zweier Variablen stets kleiner sein muss als die Wurzel aus der Reliabilität der Variablen mit der geringeren Reliabilität:
Bsp: Man nimmt die kleinste Reliabilität: Rel = 0,81 => Wurzel aus 0,81 = 0,9 => Seine Validität kann nicht größer als .90 sein.
Verdünnungsformel = Spearmans Minderungskorrektur: Validität ist die Korrelation dividiert durch die Wurzel der beiden Reliabilitäten
Validität: 0,6 / ( Wurzel aus (0,81 * 0,64)) = 0,6 / 0,715 = 0,839
Merke: Messfehler senkt die Korrelation - nimmt man den Messfehler raus, steigt die Korrelation.
Bild unten: Hier wird jeweil aus den beiden Reliabilitäten der Messfehler rausgerechnet =>
Korrelation 0,60 -> 0,67 wenn die Rel = 0.81 ist
Korrelation 0.60 -> 0,75 wenn die Rel = 0,64 ist
=> je kleiner die Reliabilität, desto größer der Messfehler
Probleme der KTT: Paradoxe Zusammenhänge zwischen Gütekriterien: Trennschärfe gegen Validität
Ist eine Optimierung von Validität und Reliabilität möglich?
Widersprüch lässt sich im Rahmen der KTT ableiten:
Imtemantworten = fehlerbehaftete Messwerte
Valitdität eines Items = Korrelation mit dem Kriterium
Reliabilität = Trennschärfe (Res ist abhängig von der Trennschärfe)
Jedes Item und der Gesamtscore erfassen die gleiche Variable mit unterschiedlicher Genauigkeit, daher Reliabilität ungleich Trennschärfe -> Reliabilität eines Items ist stest kleiner als die Trennschärfe
=> Reliabilitäts-Validitäts-Dilemma
Die Kriteriumsvalidität sinkt mit steigenden Itemtrennschärfen bei gegebenen Itemvaliditäten
=> Eine Erhöhung der Trennschärfe, erhöht man die Reliabilität des Tests, aber verringert gleichzeitig die Validität des Tests
Probleme der KTT: Antworttendenzen
Beispiel „Personal Need for Structure“
Es gefällt mir, wenn ich ein klares und strukturiertes Leben habe.
Ich bin ungern mit Leuten zusammen, deren Verhalten nicht vorhersehbar ist.
Ich fühle mich unwohl, wenn die Regeln in einer Situation unklar sind.
(Antwortformat: 1 „trifft gar nicht zu“ – 6 „trifft vollkommen zu“
Hoher Testwert
- Hohe Merkmalsausprägung
- Moderat hohe Merkmalsausprägung mit Tendenz zu extremen
Mittlerer Testwert
- Mittlere Merkmalsausprägung
- Hohe Merkmalsausprägung mit Tendenz zu mittleren Antworten
Welche Auswirkungen hat das so genannte Reliabilitäts-Validitäts-Dilemma?
Wählen Sie eine oder mehrere Antworten
Was sind bekannte Probleme der KTT?
Wählen Sie eine oder mehrere Antworten: