Cartes mémoires Testtheorie

Cartes-fiches	143
Utilisateurs	20
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	13.11.2012 / 25.02.2024
Lien de web	https://card2brain.ch/box/testtheorie
Intégrer	<iframe src="https://card2brain.ch/box/testtheorie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Kriteriumsorientierte Testwertinterpretation

Merkmalsausprägung wird basierend auf inhaltlich-psychologisch definiertem

Kriterium interpretiert. Das Kriterium ergibt sich aus Überlegungen zur

inhaltlichen Bedeutung des Testwertes.

Häufig sind vorab definierte Schwellenwerte. Diese können sich ergeben aus

- externen Kriterien (z.B. Wahrscheinlichkeit für korrekte klinische

Diagnose, Wahrscheinlichkeit für Ausbildungserfolg)

- Aufgabeninhalten (z.B. Bildungsstandards, Ausmaß der Lernzielerfüllung

Grenzen und Schwächen der klassischen Testtheorie

- Beschränkung auf Messfehlertheorie

- keine messtheoretische Fundierung des angenommenen

Intervallskalenniveaus der Testwerte

- keine Berücksichtigung der Validität auf Modellebene

- Populationsabhängigkeit von Reliabilität und Validität

- Paradoxie: Senkung der Validität durch Steigerung der Homogenität

- Mangelnde Reliabilität von Veränderungsmessungen

Viele andere „Kritikpunkte“ sind in Wahrheit eher konzeptuelle

Missverständnisse, z.B.

- Attenuationsparadoxon

- Hinterfragung des „wahren Wertes“ (A1)

- Hinterfragung des Fehlerkonzepts (L1)

- Hinterfragung der Unabhängigkeit von wahren Werten und Fehlern (L2)

Grundidee der Item-Response-Theorie (IRT)

- Modelltheoretische Unterscheidung zwischen latenten und manifesten

Variablen

- Annahme einer probabilistischen Beziehung zwischen dem latenten

Fähigkeitsparameter ξ („ksi“) und dem Erfolg beim Lösen eines Items

- Gebräuchlich sind logarithmische Kurven zur Modellierung der

Lösungswahrscheinlichkeit der Items

Modellannahmen

- Eindimensionalität: Lösungswahrscheinlichkeit eines Items hängt allein von

der Personenfähigkeit ξ ab

- Monotonie: Lösungswahrscheinlichkeit eines Items steigt monoton mit der

Personenfähigkeit ξ

- Lokale stochastische Unabhängigkeit: für gegebene ξ sind die

Itemantworten der Items stochastisch unabhängig

Das Skalogramm-Modell von Guttman als Vorläufer

Im Skalogramm-Modell von Guttman (1950) wird angenommen, dass ab einem

bestimmten Fähigkeitsparameter ξ das Item gelöst wird. Es liegt also ein

deterministischer Zusammenhang vor.

Problem: Modellverletzungen (Tolerierbarkeit?)

Rasch-Modell (1PL)

Im Rasch-Modell wird ein probabilistischer Zusammenhang zwischen

Lösungswahrscheinlichkeit P(), Fähigkeit ξ und Itemschwierigkeit σ postuliert,

der zu logistischen Kurven führt:

Umgekehrt gelangt man mit der Logit-Funktion wieder von der

Lösungswahrscheinlichkeit zu der Parameterdifferenz:

s

Parameterschätzung

Die Schätzung der Item- und Personenparameter ξ und σ geschieht auf Basis der individuellen Antwortmuster basierend auf der obigen Modellgleichung. Dabei wird die sog. Likelihood des empirisch beobachteten Antwortmusters X durch iterative Suche im Raum aller ξvund σimaximiert (sog. Maximum-Likelihood-Methode).

Differenzskalenniveau

Das Skalenniveau von Fähigkeit ξ und Schwierigkeit σ ist das einer

Differenzskala (variabler Nullpunkt, feste Einheiten, daher Eindeutigkeit bis auf

eine additive Konstante). Dabei handelt es sich um eine logarithmierte

Verhältnisskala. Damit liegt mehr als Intervallskalenniveau vor.

Die additive Konstante bewirkt, dass es keinen natürlichen Nullpunkt für die

Differenzen ξ-σ gibt. Es ist daher üblich, die Itemparameter innerhalb eines

Tests so festzulegen, dass deren Summe 0 ergibt (sog. Summennormierung).

Die Personenparameter ergeben sich dann aus der o.g. Parameterschätzung.

Erschöpfende Statistiken

Für einen Rasch-modellkonformen Test lässt sich beweisen, dass die

individuellen Lösungsmuster der Testanden für die Bestimmung von ξ und σ

irrelevant sind. Es genügt, die jeweiligen Summenscores zu kennen. Daher sind diese Summenscores erschöpfende Statistiken für die Parameterschätzung.

Spezifische Objektivität

Für einen Rasch-modellkonformen Test lässt sich zeigen, dass die Bestimmung der Item- und Personenparameter stichprobenunabhängig ist. Ermöglicht wird dies durch die Beschränkung auf ICCs gleicher Form, die lediglich entlang der ξ-Achse verschoben sind.

So ergibt sich die spezifische Objektivität der Vergleiche von Items bzw.

Personen.

Das bedeutet, dass z.B. der Schwierigkeitsunterschied σj

-σi zweier Items unabhängig ist von dem Fähigkeitsniveau der Testanden. Ebenso ist der Fähigkeitsunterschied ξw-ξv zweier Testanden unabhängig vom mittleren Schwierigkeitsniveau der Items, aus denen der Test besteht.

Modelltests

Die Gültigkeit der Annahme der Rasch-Modellkonformität kann mit empirischen Modelltests geprüft werden. Geläufig ist die Teilung der Gesamtstichprobe nach je einem relevanten Kriterium und anschließende Itemparameterschätzungen in den Teilgruppen. Diese sollten sich nicht systematisch unterscheiden.

Informationsfunktion

Für Vergleiche zwischen Testanden sind die Items am informativsten, deren

Schwierigkeit σ nahe der Fähigkeit ξ der beiden Testanden liegt. Dies lässt sich über die sog. Informationsfunktion exakt beschreiben. Mit der Summe dieser Werte über die Items eines Tests ergibt sich auch eine Möglichkeit,

Konfidenzintervalle um Punktschätzungen für ξ zu legen.

2PL-Modell (Birnbaum-Modell)

Das 1PL-Modell (Rasch-Modell) lässt sich durch Aufnahme eines

Diskriminationsparameters λ zum 2PL-Modell (Birnbaum-Modell) erweitern.

Damit wird eine unterschiedliche Steigung der ICCs ermöglicht. Damit werden

aber wesentliche Vorzüge des Rasch-Modells geopfert (z.B. die spezifische

Objektivität, erschöpfende Statistiken und die Modelltests).

3PL - Modell

+ Rateparameter

Definition von Psychologischer Test

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

Ein Test ist ein wissenschaftliches Routineverfahren zu Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung.

Skalen

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

,

Was sind die drei zentralen Gütekriterien?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ Objektivität (Standardiesierung)

+ Reliabilität

+ Validität

Was bedeutet Objektivität?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ Unabhängigkeit der Testergebnisse von Testleiter, Testauswerter und Ergebnisinterpretation

Welche Arten der Objektiviät gibt es?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ Durchführungsobjektivität (betrifft Provokation und Registrierung)

+ Auswerungsobjektivität

+ Interprtationsobjektivität

Was bedeutet Reliabilität?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ die Reliabilität (Messgenauigkeit eines Tests beschreibt, wie exakt der Test das Merkmal misst, das er misst.

Was bedeutet Reliabilität?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ die Reliabilität (Messgenauigkeit eines Tests beschreibt, wie exakt der Test das Merkmal misst, das er misst.

Wie beschreibt man die Reliabilität?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ über den Reliabilitätskoeffizienten

Was sagt der Reliabilitätskoeffizient aus? Welche Werte sind wünschenswert / nicht wünschenswert?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

+ er ist definiert als Anteil der wahren Varianz an der gesamten Varianz der Testwerte

+ angestrebt werden große Werte nahe 1; Werte ab 0.7 werden üblicherweise als akzeptabel, ab 0.8 als gut betrachtet

Welche Verfahren stehen zur Schätzung der Reliabilität zur Verfügung?

Retestreliabilität

Paralleltestreliabilität

Testhalbierungsreliabilität

Innere Konsistenz

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

Retestreliabilität

Paralleltestreliabilität

Testhalbierungsreliabilität

Innere Konsistenz

Wie ist Validität definiert?

+ die Validität (Gültigkeit) eines Tests beschreibt, wie gut das tatsächlich gemessene Merkmal mit dem zu messenden Merkmal übereinstimmt

+ sie ist das zentrale Gütekriterium!!!

Welche Arten der Validität gibt es?

+Inhaltsvalidität

- wie weit entsprechen die Items, dem, was gemessen werden soll (Repräsentattivitätsschluss)

+ Konkurrente Validität

+ Prädiktive Validität

+ Konstruktvalidität

Welche weiteren Gütekriterien sind noch zu nennen?

+ Skalierung

+ Normierung (Eichung)

+ Testökonomie (Aufwand vs. Nutzen

+ Nützlichkeit

+ Zumutbarkeit

+ Unverfälschbarkeit

(der Getestete soll nicht in der Lage sein, Ergebnis zu verändern)

+ Fairness (Nicht- Benachteiligung ethnischer Gruppen)

Was sind die Ziele psychologischer Tests?

+ Quantifizieren oder Klassifizieren der Merkmalsausprägung eines Individuums

+ Feststellung von Unterschieden zwischen Individuuen oder Gruppen

+ Ermittlung, ob ein bestimmtes KRiterium erfüllt ist (Selektion)

+ Erstellen von Profilen unterschiedlicher Merkmalsausprägungen (Berufsinteressenprofil)

+ Erfassung von Merkmalsveränderungen

(etwa durch natürliche Entwicklungen, Umweltfaktoren, gezielte Interventionen etc.)

Wie kann man psychologische Tests klassifizieren?

+ nach dem Testmedium ( mündlich, Paper - Pencil, Bildtests, PC- gestützte

Tests

+ verbal vs. nonverbal

+ kulturfair vs. kulturgebunden

+ Individual vs. Gruppentests

+ ein vs. mehrdimensional

+ maximales vs. typisches Verhalten (Leistungs-/ Persönlichkeitstests)

+ Speed vs. Power - Tests

+ offene vs. gebundene Items

+ normativ vs. ipsativ (Rating Items vs. Forced - Choice -Items)

+ normorientiert vs. kriterienorientiert

(Merkmal hinsichtlich einer Bezugsgruppe vs. Testwert hinsichtlich inhaltl.

Kriterium)

+ klassisch vs. probabilistisch

Testtheorie

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google