Cartes mémoires Testtheorie & Testkonstruktion (Seite 1 von 1)

Cartes-fiches	32
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	10.02.2019 / 30.12.2024
Lien de web	https://card2brain.ch/cards/20190210_testtheorie_testkonstruktion
Intégrer	<iframe src="https://card2brain.ch/box/20190210_testtheorie_testkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie lautet die Grundgleichung der klassischen Testtheorie (KTT)?

Yi = ti + ei

Wie ist der wahre Wert (True-Score-Variable) in der KTT definiert?

Der wahre Wert ist als Erwartungswert einer intraindividuellen (personenspezifischen)Verteilung eines Merkmals definiert

Welche vier Eigenschaften weisen die Fehlervariablen ei und die True-Score-Variablen ti in der KTT auf?

1. E(εi|τj) = 0

Der Erwartungswert der Messfehlervariable ist für jede Ausprägung der True Score Variable gleich 0

2. E(εi) = 0
der unbedingte Erwartungswert des Messfehlers ist 0

3. Cov(εi,τj)=0

Messfehler und Truescore sind unkorreliert

4. Var(Yi) = Var(τi)+Var(εi)

Die Varianz der beob. Var. lässt sich in die Varianz der True Score Var und die Messfehler Var zerlegen

Wie ist die Reliabilit ̈at in der KTT definiert? Welche Verfahren zur Bestimmung der Reliabilität kennen Sie?

Testreabilität ist die beob. Varianz durch die true Score Varianz definiert (Rel(Yi) = Var(τi) / Var(Yi))

Verfahren zur Bestimmung der Reliabilit ̈at:

Paralleltest Rel
Testhalbierungs Rel
Retest Rel

Wofür benötigt man die Spearman-Brown-Formel? Unter welchen Umst ̈anden ist die SB-Formel ein geeignetes Maß für die Gesamttest-Reliabilit ̈at?

Durch die Summierung von mehreren Items (bzw. Testh ̈alften) kann die Pr ̈azision der Messung erho ̈ht werden.

I Spearman-Brown Formel zur Testverl ̈angerung bei Gu ̈ltigkeit des Modells mit essenziell t-parallelen Variablen

Welche Verfahren zur Bestimmung der wahren Werte in der KTT kennen Sie?

1. klassische Verfahren: beob Werte sind Schätzwerte der wahren Werte: Präzision der abhängig von der Fehlervarianz

2. modelbasierte Verfahren

Was ist der Standardsch ̈atzfehler und wofu ̈r beno ̈tigt man diesen in der psychodiagnostischen Praxis?

Der Standardschätzfehler ist die Standardabweichung der Residuen und dient um die Güte der Schätzung anzugeben, je größer der SSF desto ungenauer ist die Schätzung

Welche der folgenden Aussagen zu Messfehler- und True-Score-Variablen ist gemäß Klassischer Testtheorie falsch?

Der Erwartungswert einer Messfehlervariablen ist für jede Ausprägung der True-Score-Variablen gleich 0

Der unbedingte Erwartungswert einer Messfehlervariablen ist gleich 0

Messfehler-und True-Score-Variablen sind korreliert

Die Varianz einer beobachteten Variablen lässt sich additiv zerlegen in die Varianz der True-Score- Variablen und die Varianz der Messfehler-Variablen

Nennen und erläutern Sie kurz mindestens 3 Aspekte der Konstruktvalidität.

konvergente Konstruktvalidität
diskriminante Konstruktvalidität
Gültigkeit des Messmodells: (Gegeben, wenn sich die Testitems theoriekonform als Indikatoren eines gemeinsamen“latenten Faktors”nachweisen lassen)

Nennen zwei Ziele der exploratorischen Faktorenanalyse (EFA)?

Ziele der EFA:

1. Wie viele Dimensionen (latente Faktoren) werden beno ̈tigt, um die Zusammenh ̈ange zwischen den beobachteten (manifesten) Variablen zu erkl ̈aren?

→ Datenreduktion
Wie ko ̈nnen die latenten Faktoren inhaltlich interpretiert werden, die

das Konstrukt repr ̈asentieren sollen?

→ Sch ̈atzung & Interpretation der Faktoren

Wozu dient der Bartlett-Test?

Bartlett-Test auf Sph ̈arizit ̈at

Nullhypothese (H0): Es gibt keine Zusammenh ̈ange zwischen den manifesten Variablen (sog. Baseline-Modell)

Wichtig: Man ist daran interessiert, die Nullhypothese (H0) zu verwerfen und die Alternativhypothese (H1) anzunehmen!

Was ist ein Heywood-Fall?

Bei der Parametersch ̈atzung kann die Situation auftreten, dass für eine Residualvarianz ein negativer (d.h. theoretisch unmo ̈glicher) Wert gesch ̈atzt wird (“Heywood-Fall”)

Erl ̈autern Sie das (statistische) Vorgehen zur Bestimmung der
Faktoranzahl im Rahmen von EFAs?

Es wird zun ̈achst ein Modell mit einem Faktor gesch ̈atzt und dann schrittweise die Anzahl der Faktoren erho ̈ht
Die verschiedenen Modelle werden anhand von Modellgu ̈tekoeffizienten verglichen (z.B. χ2-Anpassungstest, informationstheoretische Maße wie AIC oder BIC, Closeness-of-Fit-Koeffizienten wie RMSEA)
Es wird dasjenige Modell ausgew ̈ahlt,
◃ das den Modellgu ̈tekriterien zufolge nicht verworfen werden muss
◃ das die geringste (oder eine relativ geringe) Anzahl von Faktoren aufweist
◃ das theoretisch sinnvoll interpretierbar ist

Welche weitere Methoden zur Bestimmung der Faktorenanzahl
kennen Sie?

1. Kaiser-Guttman Kriterium
◃ Extrahiere nur Faktoren, die einen Eigenwert > 1 aufweisen

2. Screeplot
◃ Plotte den Eigenwertverlauf und w ̈ahle nur jene latente Faktoren aus, die vor dem Knick im Eigenwertverlauf liegen.

3. Parallelanalyse nach Horn (1965)

Plotte den Eigenwertverlauf der empirischen Daten gegen einen zuf ̈alligen Eigenwertverlauf auf Basis von simulierten Daten. Extrahiere nur jene Faktoren, die vor dem Schnittpunkt der beiden Eigenwertverl ̈aufe liegen.

Was versteht man unter Eigenwerte? Wozu werden Eigenwerte in
der EFA verwendet?

Der Eigenwert eines Faktors ist die Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Der Eigenwert errechnet sich durch quadrieren und aufaddieren der Faktorladungen in den jeweiligen Spalten der Ladungsmatrix. Der Eigenwert gibt an, wie viel Varianz ein Faktor erklärt. Ein Eigenwert von eins bedeutet also, dass ein Faktor genauso viel Varianz wie eine Variable erklärt.

Was versteht man unter Kommunalit ̈at, was unter Uniqueness?

Kommunalit ̈at (h2) = Summe der quadrierten standardisierten Faktorladungen fu ̈r ein Item u ̈ber alle Faktoren
Im Fall von unkorrelierten Faktoren entspricht die Kommunalit ̈at der Reliabilit ̈at eines Item
Fu ̈r Item Q2 wurden folgende stand. Ladungen gesch ̈atzt: λs11=0.714 und λs12=0.381. Die Kommunalit ̈at (Reliabilit ̈at) fu ̈r Item Q2 betr ̈agt also 0.7142+0.3812=0.655
1-Kommunalit ̈at (h2) = Uniqueness
Die Uniqueness entspricht der standardisierten Fehlervarianz (der Anteil der Varianz einer beobachteten Variablen, der NICHT durch die Faktoren erkl ̈art werden kann)

Wie geht man vor, um die latenten Faktoren in der EFA zu interpretieren?

?????

Was ist eine orthogonale und was eine oblique Rotation?

Bei orthogonalen Rotationen bleibt die Unkorreliertheit der Faktoren erhalten

Die bekannteste orthogonale Rotation ist die Varimax-Rotation
◃ Diesem Kriterium zufolge werden die Faktoren so rotiert, dass die
Varianz der quadrierten Ladungen maximiert wird
◃ d.h. dass die quadrierten Ladungen entweder sehr hohe oder sehr
niedrige Werte aufweisen

Was unterscheidet eine EFA von einer Hauptkomponentenanalyse?

Die Hauptkomponentenanalyse (“principal component analysis”, PCA) ist eine Technik der Datenreduktion, die h ̈aufig mit der EFA verwechselt wird
Bei der PCA geht es um die optimale lineare Kombination der beobachteten Variablen (und nicht um die Erkl ̈arung ihrer Kovariation durch latente Variablen)
Der PCA liegt kein Populationsmodell zugrunde und es werden keine Residualvariablen angenommen (die PCA ist keine EFA!)

Nennen Sie ein geeignetes Assoziationsmaß fu ̈r dichotome Variablen?

Zusammenhangsmaße fu ̈r dichotome Variablen

IRT I

10 | 86

Das Pendent zur Produkt-Momenent Korrelation bei dichotomen Variablen heißt φ-Koeffizient

Ein Nachteil ist, dass der φ-Koeffizient h ̈aufig einen eingeschr ̈ankten Wertebereich aufweist (also nicht den maximalen Wert von 1 erreichen kann)

◃ φ kann nur 1 sein, wenn beide Variablen die gleiche Randverteilung (Schwierigkeit) haben

◃ φ ist umso kleiner, je unterschiedlicher die Randverteilungen der beiden Items sind

Alternative Zusammenhangsmaße

IRT I

11 | 86

Poly- und Tetrachorische Korrelationen (werden bei konfirmatorischen Faktorenanalysen mit geordnet kategorialen beobachteten Variablen eingesetzt)

Wettquotientenverh ̈altnis (Odds-Ratio) wird in der logistischen Regression eingesetzt

Yules-Q (γ-Koeffizient, besonders geeignet, wenn Items sich in Bezug auf ihre Schwierigkeiten auf einem gemeinsamen Konstrukt anordnen lassen)

Durch welche Annahmen wird das Rasch-Modell definiert und was bedeuten diese?

Annahme 1: Rasch-Homogenit ̈at

Alle beobachteten Variablen erfassen in homogener Weise das gleiche latente Merkmal

Annahme 2: Bedingte stochastische Unabh ̈angigkeit

U ̈ber das latente Konstrukt hinaus bestehen keine Zusammenh ̈ange zwischen den beobachteten Variablen

Was ist damit gemeint, dass der Summenwert im Rasch-Modell eine “su ziente Statistik”ist?

Summenwert als suffiziente Statistik

Die Summe der gelo ̈sten Aufgaben bzw. bejahten Items
(S = Y1 + ... + Yp ) ist ein erscho ̈pfender (“suffizienter”) Sch ̈atzwert fu ̈r den Personenwert ηm

P(Yi =yi|η,S)=P(Yi =yi|S)
Es kommt nur darauf an, wie viele Items gelo ̈st/bejaht wurden, nicht

aber welche

Entspricht in dieser Hinsicht dem Modell (essentiell) τ- ̈aquivalenter Variablen

Welche Methoden zur Sch ̈atzung der Itemparameter ko ̈nnen beim Rasch-Modell herangezogen werden?

Alternative “schrittweise” ML-Sch ̈atzverfahren

Schritt 1: Sch ̈atzung der Itemparameter

Bedingte ML-Methode: Baut darauf auf, dass S eine suffiziente Statistik fu ̈r den Personenparameter ist (d.h. Itemparameter ko ̈nnen unabh ̈angig von den Personenparameter gesch ̈atzt werden)
Marginale ML-Methode: Item- und Personenparameter werden ebenfalls getrennt voneinander gesch ̈atzt. Setzt allerdings eine Annahme u ̈ber die Verteilung der Personenparameter voraus (z.B. Normalverteilung)
Schritt 2: Sch ̈atzung der Personenparameter
Unbedingte ML-Methode: Die Itemparameter werden in die Likelihood-Gleichung eingesetzt (Nachteil: es gibt keine Sch ̈atzwerte fu ̈rPersonenmits =0oders =p)
Gewichtete ML-Methode: Methode der Wahl

Wie ist die Iteminformationsfunktion definiert und wann ist ein Item am informativsten?

Die Iteminformation entspricht der bedingten Itemvarianz

Ii(η)=P(Yi =1|η)·P(Yi =0|η) =Var(Yi|η)

Das Item ist am informativsten, wenn Lo ̈sen und Nicht-Lo ̈sen gleich wahrscheinlich sind

Erkl ̈aren Sie kurz die Grundidee des Adaptiven Testens?

Einer Personen werden sukzessive (computerbasiert) diejenigen Items dargeboten, die maximal zur Sch ̈atzung ihres Personenwertes beitragen (d.h. deren Schwierigkeit mo ̈glichst nah am Personenwert liegt)

Wie ist die Reliabilit ̈at nach Andrich (1982) definiert und wie kann Sie inhaltlich interpretiert werden?

Reliabilit ̈at (“Personenseparierbarkeit”) bezieht sich auf den Anteil der Varianz der wahren Personenwerte an der Varianz der gesch ̈atzten Personenwerte

52.4% der gesch ̈atzten Personenwerte gehen auf wahre Personenunterschiede zuru ̈ck.

Nennen Sie zwei testbare Konsequenzen des Rasch-Modells und die jeweiligen Verfahren, mit denen diese Modellannahmen statistisch gepru ̈ft werden ko ̈nnen.

Gleichheit der Itemparameter in Subpopulationen
- Bei bekannten Subpopulationen (z.B. M ̈anner und Frauen) werden die Itemparameteranhand der jeweiligen Substichproben gesch ̈atzt und verglichen
  1. Likelihood-Ratio-Test
  2. Itemspezifischer Wald-Test
Globale Modellgu ̈ltigkeit (Beobachtete und Erwartete H ̈aufigkeiten )
- Pearson χ2-Tests
- M2-Statistik (Maydeu-Olivares, 2013)

Welche methodischen Probleme weist der Pearson c2-Tests auf? Nennen Sie ein alternatives Maß um die Gesamtmodellgu ̈te zu prüfen.

es muss eine große Stichprobe vorliegen, damit die χ2-verteilt ist
daru ̈ber hinaus w ̈achst die Anzahl der mo ̈glichen Antwortmuster mit der Anzahl der Items p exponential an (im Beispiel 2p = 25 = 32, wobei die Mehrzahl der Antwortmuster in kleinen Stichproben gar nicht auftreten, 32-20=12)
Das fu ̈hrt dazu, dass die PE-Pru ̈fgro ̈ße in Anwendungen nicht χ2-verteilt ist
Eine alternative Methode zur Pru ̈fung der globalen Modellgu ̈ltigkeit ist die M2-Statistik (Maydeu-Olivares, 2013) (implementiert in mirt mit der Funktion M2)
Anstatt wie beim Pearson-χ2-Test die Wahrscheinlichkeiten aller Antwortmuster zu beru ̈cksichtigen (“full information statistic”), basiert die M2-Statistik nur auf den univariaten und bivariaten Itemkennwerten (“limited information statistic”)
Vorteil: Die Pru ̈fgro ̈ße ist auch bei gro ̈ßeren Modellen und in kleineren Stichproben χ2-verteilt
Alternative zum Pearson χ2-Tests
Eine alternative Methode zur Pru ̈fung der globalen Modellgu ̈ltigkeit ist die M2-Statistik (Maydeu-Olivares, 2013) (implementiert in mirt mit der Funktion M2)
Anstatt wie beim Pearson-χ2-Test die Wahrscheinlichkeiten aller Antwortmuster zu beru ̈cksichtigen (“full information statistic”), basiert die M2-Statistik nur auf den univariaten und bivariaten Itemkennwerten (“limited information statistic”)
Vorteil: Die Pru ̈fgro ̈ße ist auch bei gro ̈ßeren Modellen und in kleineren Stichproben χ2-verteilt

Wie ko ̈nnen abweichende Items und/oder abweichende Personen im Rasch-Modell identifziert werden?

Mit einem Person x(2) Test können Beobachtete und Erwartete H ̈aufigkeiten von personen analysiert werden

Wodurch ist das Birnbaum-Modell (Zwei-Parameterische logistische Modell) gekennzeichnet?

Die Abweichung eines Personenwerts vom Schwierigkeitsparameter wird im Unterschied zum Rasch-Modell mit βi gewichtet

Wie kann der Itemparameter bi im Birnbaum-Modell (2-PL-Modell) inhaltlich interpretiert werden?

Je gro ̈ßer βi ist, desto steiler verl ̈auft die Itemcharakteristikkurve an ihrem Wendepunkt
ein ho ̈heres βi bedeutet, dass sich Unterschiede zwischen Personen auf der latenten Variable deutlicher auswirken
d.h. die Items“diskriminieren”besser zwischen wahren Merkmalsunterschieden

Welche Zusammenhänge von Itemkennwerten sind falsch?

Hohe Itemvarianz geht sehr wahrscheinlich mit einer hohen Itemtrennschärfe einher

Hohe Itemschwierigkeit bedeutet eine niedrige Itemvarianz.

Niedrige Itemschwierigkeit bedeutet eine niedrige Itemvarianz.

Der Zusammenhang zwischen Itemschwierigkeit und Informationsgehalt ist umgekehrt u-förmig

Der Zusammenhang zwischen Itemschwierigkeit und Informationsgehalt ist linear. [X] Überhöhte Korrelationen zwischen Items derselben Dimension sollen vermindert werden [ ] Assimilationseffekte sollen vermindert werden [ ] Kontrasteffekte sollen vermindert werden [ ] Akquieszenzeffekte sollen vermindert werden [ ] Effekte der sozialen Erwünschtheit sollen vermindert werden [ ] 57,5 [ ] 40 [ ] 62,5 [X] 50 [ ] 60 [ ] Hohe Itemvarianz geht sehr wahrscheinlich mit einer hohen Itemtrennschärfe einher [ ] Hohe Itemschwierigkeit bedeutet eine niedrige Itemvarianz. [ ] Niedrige Itemschwierigkeit bedeutet eine niedrige Itemvarianz. [ ] Der Zusammenhang zwischen Itemschwierigkeit und Informationsgehalt ist umgekehrt u-förmig. [X] Der Zusammenhang zwischen Itemschwierigkeit und Informationsgehalt ist linear.

Testtheorie & Testkonstruktion

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google