Set of flashcards Testtheorie und Testkonstruktion

Flashcards	44
Students	12
Language	Deutsch
Category	Psychology
Level	University
Created / Updated	12.02.2019 / 12.08.2021
Weblink	https://card2brain.ch/cards/20190212_testtheorie_und_testkonstruktion_2_termin
Embed	<iframe src="https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion_2_termin/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Welche vier Eigenschaften weisen die Fehlervariablen εi und die True-Score-Variablen τi in der KTT auf?

1. Der Erwartungswert einer Messfehlervariable ist für jede Ausprägung der True-Score-Variable = 0

2. Der unbedingte Erwartungswert einer Messfehlervariable = 0

3. Messfehler- und True-Score-Variablen sind unkorreliert

4. Die Varianz einer beobachteten Variable lässt sich additiv zerlegen in die Varianz der True-Score-Variable und in die Varianz der Messfehler-Variable

Wie ist die Reliabilität in der KTT definiert?

= Rel(Yi) ist der Anteil der wahren Varianz an der Gesamtvarianz einer beobachteten Variablen

- Wie zuverlässig können interindividuelle Merkmalsunterschiede erfasst werden?

- kann Werte zwischen 0 (schlecht, Unterschiede sind messfehlerbedingt)

und 1 (supi, beobachtete Unterschiede sind auf "wahre" Merkmalsunterschiede zurückzuführen) annehmen

---> je kleiner der Messfehler, desto höher die Reliabilität

- in homogenen Stichproben ist die Reliabilität meist geringer als in heterogenen, da geringere Varianz wahrer Werte

----> wir sollten also zusätzlich die Messfehlervarianz berechnen

Welche Verfahren zur empirischen Bestimmung der Reliabilität gibt es?

- das Merkmal muss mindestens zweimal gemessen werden

- weitere Annahmen bezüglich des zugrundeliegenden Messmodells müssen getroffen werden

Aber wie..?

1. Testwiederholungsmethode

2. Paralleltestmethode

3. Testhalbierungsmethode

Unter welchen Umständen ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilität?

Wenn sich der beobachtete Wert des Gesamttests in zwei parallele Messwerte aufspalten lässt.

--> Modell paralleler Messungen

Welche Verfahren zur Bestimmung der wahren Werte in der KTT gibt es?

1. klassische Verfahren

- basieren auf Konzeption der wahren Werte (True-Score-Variablen)

2. modellbasierte Verfahren

- basieren auf konkretem psychometrischem Modell und verwenden die vorliegenden Items zur Schätzung der wahren Werte

---> da wahre Werte stets nur geschätzt werden, sind sie mit gewisser Unsicherheit behaftet und sollten daher mittels Konfidenzintervall interpretiert werden

Was macht das klassische Verfahren zur Bestimmung wahrer Werte in der KTT aus?

- beobachtete Werte werden als Schätzerwerte für die wahren Werte genutzt

--> zulässig, da der personenbedingte Erwartungswert einer Variablen gleich dem wahren Wert ist

--> wie präzise der wahre Wert geschätzt werden kann hängt von der Fehlervarianz ab (große Fehlervarianz = unpräzise)

------> Konfidenzintervall zur Bestimmung der Präzision

Was macht die modellbasierten Verfahren zur Schätzung des wahren Werts aus?

Sie unterscheiden sich darin, wie die Faktorwerte (wahre Werte) und deren Standardfehler geschätzt werden

--> In R (lavaan) können diese mit der lavPredict Funktion bestimmt werden

Was ist der Standardschätzfehler und wofür benötigt man ihn in der psychodiagnostischen Praxis?

Der Standardschätzfehler entspricht der Standardbaweichung der Fehlervariablen.

Er wird benötigt, um ein Konfidenzintervall zu berechnen

---> Reliabilität hoch --> Standardschätzfehler gering --> Konfidenzintervall kleiner

Was ist die Itemschwierigkeit?

= Pi

= Popularitätsindex

= Itemleichtigkeit

- entspricht dem Anteil der Personen, die das Item richtig lösen oder bejahen

--> das Mininum von Pi ist hierbei der niedrigste Wert, der angekreuzt wurde (kann auf einer Skala von 1 - 5 also auch die 2 sein)

--> mittlere Schwierigkeiten (50%) sind zu bevorzugen, unter 20% und über 80% Pi werden Items i.d.R. ausgeschlossen

Was ist die Item-Varianz?

= Differenzierungsindex eines Items

= Ausmaß der interindividuellen Unterschiede im Antwortverhalten der Probanden für ein bestimmtes Item i

--> wenn alle das Item gleich lösen, ist die Varianz = 0

--> in der Praxis wird i.d.R. die Standardabweichung berichtet

Wie zeichnet sich der Zusammenhang zwischen Itemschwierigkeit und Item-Varianz aus?

- ist das Item extrem leicht oder extrem schwer, ist die Varianz am kleinsten

- größter Differenzierungsgrad / Varianz bei mittelschweren Items

--> bei dichotomen Items ist der Zusammenhang kurvilinear

------> heißt, er entspricht einer quadrierten Funktion

Was ist die Item-Trennschärfe?

= Maß dafür, wie gut ein Item zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt / differenziert

- Korrelation zwischen Item i und Gesamttest

-----> Item-to-Total-Correlation

Wofür braucht man die part-whole-Korrektur?

- Berechnung der Trennschärfe eines Items

--> betrachtetes Item aus Gesamttest entfernen, da es sonst mit sich selbst korrelieren würde (Ergebnisverzerrung)

---> alle Items sollten dafür dasselbe Merkmal messen = Gültigkeit Eindimensionales Messmodell

Wie berechnet man die Item-Trennschärfe?

Kovarianz zwischen dem betrachteten Item und der 1. Subskala (ohne betrachtetes Item) geteilt durch seine Standardabweichung*Standardabweichung der Subskala (ohne das betrachtete Item)

Bsp: Kovarianz = 1.604, Item-SD = 1.45, Subskala-SD = 1.26

---> 1.604 / (1.45*1.26)

Interpretation der Trennschärfe

- nahe 1: differenziert gut (Probanden mit hoher Merkmalsausprägen lösen es)

- nahe 0: ist ungeeignet, misst vielleicht etwas anderes

- nahe -1: Probanden niedriger Ausprägung lösen es - vielleicht vergessen umzupolen?

- in R-Output mit part-whole-Korrektur: r.drop

- in R-Output ohne part-whole: raw.r

Was misst Cronbachs-alpha "if Item deleted"?

= Reliabilität / interne Konsistenz der Skala

- größer, je besser Item mit Gesamtskala korreliert

---> Item wird beibehalten, wenn bei Entfernung alpha niedriger werden würde als zuvor

alpha sollte nie zu hoch sein - könnte auf Redundanzen hinweisen

Was sind Orientierungswerte bei der Item-Selektion und Test-Revision?

- Itemschwierigkeit, Itemvarianz und Itemtrennschärfe sollten simultan berücksichtigt werden

- Daumeregeln:

--> Trennschärfen zwischen .30 und .50 mittel, > .50 gut

--> hohe Itemvarianzen / -standardabweichungen

--> gleichmäßig verteilte Itemschwierigkeiten zwischen 20 und 80

Wie lautet die Grundgleichung der klassischen Testtheorie (KTT)?

beobachteter Wert = True Score (wahrer Wert) + Fehlerwert

Wie ist der wahre Wert (True-Score-Variable) in der KTT definiert?

Der wahre Wert ist als Erwartungswert einer intraindividuellen, d.h. personenspezifischen Verteilung eines Merkmals definiert.

Woran kann es liegen, wenn ein derselbe Test unterschiedliche Ergebnisse bei einer Person ergibt?

1. Instabilität = generelle Schwankungen in Messung

2. Messfehler = Messung erfasst Merkmal nicht genau

-------------------------------------------------------------------------------------------------------------------------------------------------------

1. Systematische Einflüsse, die etwas über Veränderung aussagen und von großem Forschungsinteresse sind

2. Unsystematische Einflüsse, die unabhängig von Merkmalsausprägungen einer Person auftreten

Konsequenzen von Messfehlereinflüssen

einfache Regression / bivariate Korrelation

- Unterschätzung des wahren Zusammenhangs

- verzerrte Standardfehler

- geringere Teststärke

multiple Regression

- Unter- / Überschätzung der Regressionskoeffizienten

- verzerrte Standardfehler

- geringere Teststärke

ANCOVAs in quasiexperimentellen Untersuchungen

- Lords-Paradox: fälschlicherweise Interventionseffekt (Gruppenunterschiede, obwohl es die gar nicht gibt)

Was sind Ziele psychometrischer Messmodelle der KTT?

1. Prüfung der Eindimensionalität

2. Prüfung von Homogenitätsannahmen (zur Bestimmung von Reliabilität)

3. Bestimmung der wahren Werte für psychodiagnostische Zwecke

Welche Messmodelle gibt es?

1. Modell mit tau-kongenerischen Annahmen

- allgemeinstes Modell, keine Vorannahmen

2.1 Modell mit essenziell tau-äquivalenten Variablen

- Leichtigkeit kann um eine additive Konstante verschoben werden, Faktorladungen gleich, unterschiedliche Messfehler

2.2 Modell mit tau-äquivalenten Variablen

- Leichtigkeiten gleich, Faktorladungen gleich, unterschiedliche Messfehler

3.1 Modell mit essenziell tau-parallelen Variablen

- Leichtigkeit kann um eine additive Konstante verschoben werden, wahrer Wert und Messfehler gleich, Trennschärfen und Korrelationen mit Außenkriterien gleich, Faktorladungen gleich

3.2 Modell mit tau-parallelen Variablen

- Leichtigkeit gleich, wahrer Wert und Messfehler gleich, Trennschärfen und Korrelationen mit Außenkriterien gleich, Faktorladungen gleich

Annahmen essenziell tau-äquivalenter Variablen

- jede beobachtete Variable lässt sich in eine True-Score-Variable und eine Messfehlervariable zerlegen

- True-Score-Variablen bis auf eine additive Konstante (alpha / Itemschwierigkeit) identisch -> essenziell

--> hier als Y1, Y2, Y3: wenn alpha = 1, dann Y auch = 1

- Messfehler ei und ej sind unkorreliert

----> Items diskriminieren in gleicher Weise, der Anstieg im Graphen ist für alle gleich/parallel

----> Items vergleichbar in Bezug auf Personen

Modellspezifikation essenziell tau-äquivalenter Variablen in R

ess.aequiv <- 'eta =~ 1*Q1 + 1*Q6 + 1*Q11'

Warum und wie normiert man die latente Variable beim essenziell tau-äquivalenten Modell?

- ihre Metrik ist beliebig und muss in konkreter Anwendung festgelegt werden

1. Fixierung des Erwartungswerts auf beliebigen Wert

--> E(Yi) = alphai

----> Voreinstellung in den meisten Statistikprogrammen

2. Fixierung eines Parameters alphai auf beliebigen Wert

--> E(Y1) = E(eta)

----> Anwendung vor allem in Veränderungsmessung

Was sind besondere Eigenschaften des Modells mit essenziell tau-äquivalenten Variablen?

1. spezifische Objektivität

--> Vergleiche zw zwei Personen hängen nicht von Item/Subskala ab, sondern sind für alle gleich

--> Vergleiche zw zwei Items/Subskalen hängen nicht von betrachteter Person ab

2. Gesamtreliabilität

--> cronbachs-alpha geeignetes Maß, sofern Modell auf Daten passt

3. Vergleich zur IRT

--> äquivalent zum Rasch-Modell

Wie prüft man die Modellgültigkeit?

Ein Chi²-Test vergleicht Daten der modellimplizierten Kovarianzmatrix mit der empirisch beobachteten Kovarianzmatrix auf Abweichungen.

Je weniger unterschiedlich die Daten sind, desto besser die Passung unseres Modells.

--> Der Modellfit sollte also nicht signifikant werden!

Wo ist was im R-Output (essenziell tau-äquivalentes Modell)?

Reliabilität berechnen: Rel(Y1) = 1.230 / (1.230+0.751)

Bestimmung der Test-Reliabilität bei essenziell tau-äquivalenten Modellen

- cronbachs-alpha

- auf Basis einer Summenvariable S

---> alle Items müssen gleich gewichtet sein!

- semTools::reliability(fit)["alpha",]

----> eta und total / Gesamtreliabilität gleich, da es nur eine latente Variable gibt

----> ab .70 supi

Wofür benötigt man die Spearman-Brown-Formel?

...zur Testverlängerung (siehe Reliabilität) bei essenziell tau-parallelen Variablen

= Das Summieren von mehreren Items kann Präzision der Messung erhöhen

Annahmen essenziell tau-paralleler Modelle

- jede beobachtete Variable lässt sich in eine True-Score-Variable und eine Messfehlervariable zerlegen

- die True-Score-Variablen sind bis auf eine additive Konstante (alpha / Itemschwierigkeit) identisch -> daher essenziell

- Messfehlervariablen ei und ej sind unkorreliert

--------------------------------------------------neu hinzukommend---------------------------------------------------------------------------------------

- Messfehlervarianzen sind identisch für verschiedene Items (tau-parallel)

---> wir gewinnen dadurch 2 zusätzlich Freiheitsgrade

INFO:

- streng parellel = alle Items messen genau gleich - gleiche "Messgenauigkeit", gleiche Reliabilität

- essenziell-parallel = ein Item darf anders sein (sehr ökonomische Methode, da Items austauschbar sind)

Modellspezifikation essenziell tau-paralleler Modelle in R

ess.parallel <- 'eta =~ 1*Q1 + 1*Q6 + 1*Q11,

Q1 ~~ eps*Q1

Q6 ~~ eps*Q6

Q11~~ eps*Q11'

Wo ist was im R-Output zum essenziell tau-parallelen Modell?

- Fehlervarianzen (Std. Error) auch alle gleich

Bestimmung der Reliabilität bei essenziell tau-parallelen Modellen

1. nach Formel, wie für tau-äquivalente Reliabilität

2. Convenience Funktion: inspect(fit, "rsquare")

---> in beiden Fällen gleiche Reliabilität für alle drei Items

------> Testverlängerung praktisch

Wozu dient die Testverlängerung?

= zur Erhöhung der Präzision unserer Messung

- durch Summierung von mehreren Items

Ich: "Wie viele Items brauche ich denn, um die Präzision meiner Messung zu erhöhen?"

Spearman-Brown: "Warum hast du mich das nicht gleich gefragt..."

Annahmen des Messmodells mit tau-kongenerischen Variablen

- beobachtete Variable in True-Score-Variable und Messfehlervariable zerlegt

- Messfehlervariablen ei und ej sind unkorreliert

--------------------------------------------nur hier--------------------------------------------------------

- die True-Score-Variablen sind lineare Transformationen voneinander

---> Bsp.: Umrechnung von Fahrenheit in Celsius

- Itemschrierigkeit und Trennschärfe sind unterschiedlich

- True-Score und Fehlervarianz sind gleich

---> bei einigen Items werden Fähigkeiten schneller entdeckt, als bei anderen

------> Faktorladungen verschieden (Lambda)

Modelspezifikation des tau-kongenerischen Modells in R

kongener <- 'eta1 =~ 1*Q1 + Q6 + Q11'

Modellidentifikation tau-kongenerischer Modelle

Ein tau-kongenerisches Modell mit 3 Indikatoren weist immer einen perfekten Fit / saturierte Identifikation auf

-> nicht restriktiv genug

-> mindestens 4 Indikatoren notwendig, um testbare Konsequenzen aufzudecken

Was ist wo im R-Output tau-kongenerischer Modelle?

Testtheorie und Testkonstruktion - 2. Termin

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google