Testtheorie und Testkonstruktion - 2. Termin
PHB WS18/19
PHB WS18/19
Fichier Détails
Cartes-fiches | 44 |
---|---|
Utilisateurs | 12 |
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 12.02.2019 / 12.08.2021 |
Lien de web |
https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin
|
Intégrer |
<iframe src="https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Welche vier Eigenschaften weisen die Fehlervariablen εi und die True-Score-Variablen τi in der KTT auf?
1. Der Erwartungswert einer Messfehlervariable ist für jede Ausprägung der True-Score-Variable = 0
2. Der unbedingte Erwartungswert einer Messfehlervariable = 0
3. Messfehler- und True-Score-Variablen sind unkorreliert
4. Die Varianz einer beobachteten Variable lässt sich additiv zerlegen in die Varianz der True-Score-Variable und in die Varianz der Messfehler-Variable
Wie ist die Reliabilität in der KTT definiert?
= Rel(Yi) ist der Anteil der wahren Varianz an der Gesamtvarianz einer beobachteten Variablen
- Wie zuverlässig können interindividuelle Merkmalsunterschiede erfasst werden?
- kann Werte zwischen 0 (schlecht, Unterschiede sind messfehlerbedingt)
und 1 (supi, beobachtete Unterschiede sind auf "wahre" Merkmalsunterschiede zurückzuführen) annehmen
---> je kleiner der Messfehler, desto höher die Reliabilität
- in homogenen Stichproben ist die Reliabilität meist geringer als in heterogenen, da geringere Varianz wahrer Werte
----> wir sollten also zusätzlich die Messfehlervarianz berechnen
Welche Verfahren zur empirischen Bestimmung der Reliabilität gibt es?
- das Merkmal muss mindestens zweimal gemessen werden
- weitere Annahmen bezüglich des zugrundeliegenden Messmodells müssen getroffen werden
Aber wie..?
1. Testwiederholungsmethode
2. Paralleltestmethode
3. Testhalbierungsmethode
Unter welchen Umständen ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilität?
Wenn sich der beobachtete Wert des Gesamttests in zwei parallele Messwerte aufspalten lässt.
--> Modell paralleler Messungen
Welche Verfahren zur Bestimmung der wahren Werte in der KTT gibt es?
1. klassische Verfahren
- basieren auf Konzeption der wahren Werte (True-Score-Variablen)
2. modellbasierte Verfahren
- basieren auf konkretem psychometrischem Modell und verwenden die vorliegenden Items zur Schätzung der wahren Werte
---> da wahre Werte stets nur geschätzt werden, sind sie mit gewisser Unsicherheit behaftet und sollten daher mittels Konfidenzintervall interpretiert werden
Was macht das klassische Verfahren zur Bestimmung wahrer Werte in der KTT aus?
- beobachtete Werte werden als Schätzerwerte für die wahren Werte genutzt
--> zulässig, da der personenbedingte Erwartungswert einer Variablen gleich dem wahren Wert ist
--> wie präzise der wahre Wert geschätzt werden kann hängt von der Fehlervarianz ab (große Fehlervarianz = unpräzise)
------> Konfidenzintervall zur Bestimmung der Präzision
Was macht die modellbasierten Verfahren zur Schätzung des wahren Werts aus?
Sie unterscheiden sich darin, wie die Faktorwerte (wahre Werte) und deren Standardfehler geschätzt werden
--> In R (lavaan) können diese mit der lavPredict Funktion bestimmt werden
Was ist der Standardschätzfehler und wofür benötigt man ihn in der psychodiagnostischen Praxis?
Was ist die Itemschwierigkeit?
= Pi
= Popularitätsindex
= Itemleichtigkeit
- entspricht dem Anteil der Personen, die das Item richtig lösen oder bejahen
--> das Mininum von Pi ist hierbei der niedrigste Wert, der angekreuzt wurde (kann auf einer Skala von 1 - 5 also auch die 2 sein)
--> mittlere Schwierigkeiten (50%) sind zu bevorzugen, unter 20% und über 80% Pi werden Items i.d.R. ausgeschlossen
Was ist die Item-Varianz?
= Differenzierungsindex eines Items
= Ausmaß der interindividuellen Unterschiede im Antwortverhalten der Probanden für ein bestimmtes Item i
--> wenn alle das Item gleich lösen, ist die Varianz = 0
--> in der Praxis wird i.d.R. die Standardabweichung berichtet
Wie zeichnet sich der Zusammenhang zwischen Itemschwierigkeit und Item-Varianz aus?
Was ist die Item-Trennschärfe?
= Maß dafür, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt / differenziert
- Korrelation zwischen Item i und Gesamttest
-----> Item-to-Total-Correlation
Wofür braucht man die part-whole-Korrektur?
- Berechnung der Trennschärfe eines Items
--> betrachtetes Item aus Gesamttest entfernen, da es sonst mit sich selbst korrelieren würde (Ergebnisverzerrung)
---> alle Items sollten dafür dasselbe Merkmal messen = Gültigkeit Eindimensionales Messmodell
Wie berechnet man die Item-Trennschärfe?
Kovarianz zwischen dem betrachteten Item und der 1. Subskala (ohne betrachtetes Item) geteilt durch seine Standardabweichung*Standardabweichung der Subskala (ohne das betrachtete Item)
Bsp: Kovarianz = 1.604, Item-SD = 1.45, Subskala-SD = 1.26
---> 1.604 / (1.45*1.26)
Interpretation der Trennschärfe
- nahe 1: differenziert gut (Probanden mit hoher Merkmalsausprägen lösen es)
- nahe 0: ist ungeeignet, misst vielleicht etwas anderes
- nahe -1: Probanden niedriger Ausprägung lösen es - vielleicht vergessen umzupolen?
- in R-Output mit part-whole-Korrektur: r.drop
- in R-Output ohne part-whole: raw.r
Was sind Orientierungswerte bei der Item-Selektion und Test-Revision?
- Itemschwierigkeit, Itemvarianz und Itemtrennschärfe sollten simultan berücksichtigt werden
- Daumeregeln:
--> Trennschärfen zwischen .30 und .50 mittel, > .50 gut
--> hohe Itemvarianzen / -standardabweichungen
--> gleichmäßig verteilte Itemschwierigkeiten zwischen 20 und 80
Woran kann es liegen, wenn ein derselbe Test unterschiedliche Ergebnisse bei einer Person ergibt?
1. Instabilität = generelle Schwankungen in Messung
2. Messfehler = Messung erfasst Merkmal nicht genau
-------------------------------------------------------------------------------------------------------------------------------------------------------
1. Systematische Einflüsse, die etwas über Veränderung aussagen und von großem Forschungsinteresse sind
2. Unsystematische Einflüsse, die unabhängig von Merkmalsausprägungen einer Person auftreten
Konsequenzen von Messfehlereinflüssen
einfache Regression / bivariate Korrelation
- Unterschätzung des wahren Zusammenhangs
- verzerrte Standardfehler
- geringere Teststärke
multiple Regression
- Unter- / Überschätzung der Regressionskoeffizienten
- verzerrte Standardfehler
- geringere Teststärke
ANCOVAs in quasiexperimentellen Untersuchungen
- Lords-Paradox: fälschlicherweise Interventionseffekt (Gruppenunterschiede, obwohl es die gar nicht gibt)
Was sind Ziele psychometrischer Messmodelle der KTT?
1. Prüfung der Eindimensionalität
2. Prüfung von Homogenitätsannahmen (zur Bestimmung von Reliabilität)
3. Bestimmung der wahren Werte für psychodiagnostische Zwecke
Welche Messmodelle gibt es?
1. Modell mit tau-kongenerischen Annahmen
- allgemeinstes Modell, keine Vorannahmen
2.1 Modell mit essenziell tau-äquivalenten Variablen
- Leichtigkeit kann um eine additive Konstante verschoben werden, Faktorladungen gleich, unterschiedliche Messfehler
2.2 Modell mit tau-äquivalenten Variablen
- Leichtigkeiten gleich, Faktorladungen gleich, unterschiedliche Messfehler
3.1 Modell mit essenziell tau-parallelen Variablen
- Leichtigkeit kann um eine additive Konstante verschoben werden, wahrer Wert und Messfehler gleich, Trennschärfen und Korrelationen mit Außenkriterien gleich, Faktorladungen gleich
3.2 Modell mit tau-parallelen Variablen
- Leichtigkeit gleich, wahrer Wert und Messfehler gleich, Trennschärfen und Korrelationen mit Außenkriterien gleich, Faktorladungen gleich
Annahmen essenziell tau-äquivalenter Variablen
- jede beobachtete Variable lässt sich in eine True-Score-Variable und eine Messfehlervariable zerlegen
- True-Score-Variablen bis auf eine additive Konstante (alpha / Itemschwierigkeit) identisch -> essenziell
--> hier als Y1, Y2, Y3: wenn alpha = 1, dann Y auch = 1
- Messfehler ei und ej sind unkorreliert
----> Items diskriminieren in gleicher Weise, der Anstieg im Graphen ist für alle gleich/parallel
----> Items vergleichbar in Bezug auf Personen
Modellspezifikation essenziell tau-äquivalenter Variablen in R
ess.aequiv <- 'eta =~ 1*Q1 + 1*Q6 + 1*Q11'
Warum und wie normiert man die latente Variable beim essenziell tau-äquivalenten Modell?
- ihre Metrik ist beliebig und muss in konkreter Anwendung festgelegt werden
1. Fixierung des Erwartungswerts auf beliebigen Wert
--> E(Yi) = alphai
----> Voreinstellung in den meisten Statistikprogrammen
2. Fixierung eines Parameters alphai auf beliebigen Wert
--> E(Y1) = E(eta)
----> Anwendung vor allem in Veränderungsmessung
Was sind besondere Eigenschaften des Modells mit essenziell tau-äquivalenten Variablen?
1. spezifische Objektivität
--> Vergleiche zw zwei Personen hängen nicht von Item/Subskala ab, sondern sind für alle gleich
--> Vergleiche zw zwei Items/Subskalen hängen nicht von betrachteter Person ab
2. Gesamtreliabilität
--> cronbachs-alpha geeignetes Maß, sofern Modell auf Daten passt
3. Vergleich zur IRT
--> äquivalent zum Rasch-Modell
Wie prüft man die Modellgültigkeit?
Ein Chi²-Test vergleicht Daten der modellimplizierten Kovarianzmatrix mit der empirisch beobachteten Kovarianzmatrix auf Abweichungen.
Je weniger unterschiedlich die Daten sind, desto besser die Passung unseres Modells.
--> Der Modellfit sollte also nicht signifikant werden!
Bestimmung der Test-Reliabilität bei essenziell tau-äquivalenten Modellen
- cronbachs-alpha
- auf Basis einer Summenvariable S
---> alle Items müssen gleich gewichtet sein!
- semTools::reliability(fit)["alpha",]
----> eta und total / Gesamtreliabilität gleich, da es nur eine latente Variable gibt
----> ab .70 supi
Annahmen essenziell tau-paralleler Modelle
- jede beobachtete Variable lässt sich in eine True-Score-Variable und eine Messfehlervariable zerlegen
- die True-Score-Variablen sind bis auf eine additive Konstante (alpha / Itemschwierigkeit) identisch -> daher essenziell
- Messfehlervariablen ei und ej sind unkorreliert
--------------------------------------------------neu hinzukommend---------------------------------------------------------------------------------------
- Messfehlervarianzen sind identisch für verschiedene Items (tau-parallel)
---> wir gewinnen dadurch 2 zusätzlich Freiheitsgrade
INFO:
- streng parellel = alle Items messen genau gleich - gleiche "Messgenauigkeit", gleiche Reliabilität
- essenziell-parallel = ein Item darf anders sein (sehr ökonomische Methode, da Items austauschbar sind)
Modellspezifikation essenziell tau-paralleler Modelle in R
ess.parallel <- 'eta =~ 1*Q1 + 1*Q6 + 1*Q11,
Q1 ~~ eps*Q1
Q6 ~~ eps*Q6
Q11~~ eps*Q11'
Bestimmung der Reliabilität bei essenziell tau-parallelen Modellen
1. nach Formel, wie für tau-äquivalente Reliabilität
2. Convenience Funktion: inspect(fit, "rsquare")
---> in beiden Fällen gleiche Reliabilität für alle drei Items
------> Testverlängerung praktisch
Wozu dient die Testverlängerung?
= zur Erhöhung der Präzision unserer Messung
- durch Summierung von mehreren Items
Ich: "Wie viele Items brauche ich denn, um die Präzision meiner Messung zu erhöhen?"
Spearman-Brown: "Warum hast du mich das nicht gleich gefragt..."
Annahmen des Messmodells mit tau-kongenerischen Variablen
- beobachtete Variable in True-Score-Variable und Messfehlervariable zerlegt
- Messfehlervariablen ei und ej sind unkorreliert
--------------------------------------------nur hier--------------------------------------------------------
- die True-Score-Variablen sind lineare Transformationen voneinander
---> Bsp.: Umrechnung von Fahrenheit in Celsius
- Itemschrierigkeit und Trennschärfe sind unterschiedlich
- True-Score und Fehlervarianz sind gleich
---> bei einigen Items werden Fähigkeiten schneller entdeckt, als bei anderen
------> Faktorladungen verschieden (Lambda)
Modelspezifikation des tau-kongenerischen Modells in R
kongener <- 'eta1 =~ 1*Q1 + Q6 + Q11'
Modellidentifikation tau-kongenerischer Modelle
Ein tau-kongenerisches Modell mit 3 Indikatoren weist immer einen perfekten Fit / saturierte Identifikation auf
-> nicht restriktiv genug
-> mindestens 4 Indikatoren notwendig, um testbare Konsequenzen aufzudecken