testkonstruktion

Testkonstruktion

Testkonstruktion


Set of flashcards Details

Flashcards 269
Language Deutsch
Category Psychology
Level Primary School
Created / Updated 22.08.2014 / 13.09.2020
Weblink
https://card2brain.ch/box/testkonstruktion1
Embed
<iframe src="https://card2brain.ch/box/testkonstruktion1/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wovon hängt im Raschmodell die Lösungswahrscheinlichkeit eines Items ab?

Personenparameter (Fähigkeit oder Eigenschaftsausprägung) Theta

Itemparameter (Schwierigkeit Item) Sigma

[Beides wir geschätzt, die Beziehung ist probalistisch]

tau-äquivalente Messung

gleiche Mittelwerte

unterschiedliche Messfehler (Relibilitäten)

Korrelationen für Messwertbereinigte Testteile gleich

essentiell tau-äquivalent Mittelwert um konstante verschoben

Fakoranalyse: gleich hoh Ladung je Faktor, Fehlerterme verschieden

Items mit extremer Schwierigkeit beeinträchtigt

Reliabilität, Trennschärfe  Validität Itemhomogenität

drei Teilbereiche der Modellprüfung in der CFA

Identifikation möglicher Schätzprobleme

Prüfung der Passung/fit zwischen implizierter und empirischer Gesamtmodell

Prüfung der einzelnen Modellparameter

unteridentifizierte Modelle

es existieren unendlich viele gleichgute Lösungen

a+b=6

Was steigert die partielle Eigenkorrelation?

kurze Skalen (anteilige Gewicht pro Item an Skala steigt)

heterogene Skala (desto geringer korrelieren die Items im Mittel miteinander -> Trennschärfe und RElibiltät bedingen sich gegenseitig)

Reliabilität oder Messgenauigkeit eines Tests in der KTT

Die Reliabilität ist in KTT definiert als Anteil der wahren Varianz an der gesamten beobachteten Varianz

Anteil der Personen, die richtig klassifiziert wurden unter allen Personen die das Kriterium erfüllen

Sensivität

Wissenschaftlichkeit Test

relativ eindeutig definierte und nachweisbar relevante Merkmale sollen erfasst werden

Konstrukion beruht auf statistischen Modellen psychologischer Testtheorien

Bewährung gemäß psychologischer Gütekriterien

Dokumetation im Detail nachvollziehbarer Form

Idealtypische Schritte in der SEM

1. Modellspezifikation

2. Bestimmung der Identifizierbarkeit des Modells

3. Design und Datenerhebung

4. Durchführung SEM

a- Festlegung von Datenmatrix und Schätzalgorithmus

b- Evaluation der Passung zwischen Daten und Modell (fit)

c- Berücksichtigung von ggf. Vergleich mit alternativen Modellen

d- Interpretation der Parameter

5. Ggf. Modifikation und Respezifikation des Modells

6. Dokumentation der Analyse im schriftlichen Bericht

Was kann bei der Direkten Oblimin verändert werden?
 

ist eine oblique Rotation (SEM)

es kann der Grad der Korreliertheit verändert werden

Delta= 0 maximale Korreliertheit

Delta = -4 Orthogonalität

Probleme externale Testkonstruktion

Ergebnisse situativ instabil

schlecht interpretierbare Skalen

große Stichproben erforderlich

Kreuzvalidierung zwingend

Ratingskala

ermöglichen quantitative Beurteilung

psychometrisches Optimum 5-9 Stufen

Analogskala Stufenlos

 

Items unipolar (logisches Minimum 0 oder nie) vs bipolare Items (Extremausprägungen sind durch gegensätzliche Begriffe gekennzeichnet)

verbale, symbolische bzw. grafische oder numerische Verankerungen führt zur Verbesserung Reliabilität und Validität

Probleme: streng genommen außer Analogskalen nur Ordinalskalenniveau

sozial erwünscht antworten (nicht spez Rating)

Tendenz zur Zustimmung (Akquieszenz) oder Ablehnungb (nichtspez. Rating)

Bevorzugung bestimmter Skalenbereiche (Mitte, Extremen)

Unterschiedlche Interpretation der Bereiche

Probleme rationale Testkonstruktion

subjektive Vorentscheidung

ungeeignet bei schlecht definierten oder wenig erforschten Situationen

großer konzeptioneller Aufwand

Faktorwerte

Messwerte, die Ausprägung auf latentem Merkmal beschreiben

gewichtete Kombination der Items, die zu dem jeweiligen Faktor beitragen

In SPSS in der Koeffizientenmatrix der Faktorenwerte -> aus Datenberechnet und damit sehr stichprobenabhängig

Eindeutigkeit

nur ein sachlicher Gedanke

keune stake Verallgemeinerungen

eindeutige zeitl. und situative Bezüge

Wie errechnenen sich Faktorwerte?

gewichtete Kombination der Items, die zum jeweiligen Faktor beitragen

in SPSS in der Koeffizientenmatrix der Faktorwerte

werden aus Daten errechnet und damit extrem stichprobenabhängig

 

Regressionsberechnung (z-standardisierte Variablen -> keine Mittelwertvergleiche möglich, immer Null)

aber Vergleich zwischen zweit Teilstichproben (Mann, Frau)

Prinzip der PAF

Berechnung erfolgt schrittweise

Algorithmus ist iterativ

Es wird PCA durchgeführt

neu geschätzten Kommunalitäten werden in Diagonale der Korrelationsmatrix eingesetzt (statt R² )

erneute PCA mit Kommunalitätenschätzung etc.

solange bis gemäß Abbruchkriterium konvergiert (z.B. 25 Iterationen)

Entdeckung theoretischer Variablen

theoriebildenes bzw. hypothesengenerierendes Verfahren

komperative Fit-Indizes

(auch inkrementelle)

Fit als proportionale Verbesserung gegenüber dem Nullmodell (independence model)

Typenklassen 1-3, je höher desto mehr Informationen gehen ein

je höher Index,desto besser die Passung

 

Reihenfolgeeffekte

Assimilationseffekt: positive Verzerrung einer vorherigen Darbietung einer positiven Verankerung

Kontrasteffekt negative Verzerrung """""""""

Kontexteffekte innerhalb Items oder durch Gruppeirung Items

sytsmatische Verzerrung durch zufälige Reihung minimieren

überhöhter Korrelation bei mehrdimensionalen tests dadurch inhaltlich zusammenhängende Items mögcihst entfernt voneinander

Leistungstest in aufstegender Schwierigkeit sortiert

grafischer Modelltest für Raschmodell

Streudiagramm

geschätze Itemparameter aus zwei Stichproben (z.B. Median, Alter, Geschlecht)

für resultierende Teilstichproben werden Itemparameter geschätzt

Idealfall (Item soll in jeder Stichprobe, dieselben Eigenschaften messen-> Schätzung soll gleichausfallen für jede beliebige Schätzung)

Itemparameter liegen auf einer Regressionsgerade die mit der Winkelhalbierende zusammen fällt

Anteil der richig klassifizierten Personen unter allen Personen die das Kriterium nicht erfüllen
 

Spezifität

Bezug Test und Testtheorie

Testtheorie als Theorie des zusammenhangs zwischen Testverhalten und psychischen Merkmalen

Was stimmt?

BL89

Fit Index von Bollen 1989

Typ2

maximal >1

cut off .95

Wann unterscheiden sich Muster und Strukturmatrix?

Was verstärkt den Unterschied?

Muster und Strukturmatrix bei obliquer Rotation vershieden (orthogonaler sind sie identisch)

Unterscheiden sich stärker je höher Faktoren korrelieren

Strukturmatrix enthält oft höhere Korrelationen als Mustermatrix

IPIP

freizugängliche Quelle für Persönlichkeitsitems

International Personality Item Pool

Wie kann ich die Reliabilität erhöhen?

mittlere Schwierigkeit und hohe Trennschärfe (Korrelation der Skala mit Items -> "freir von Messfehlern")

Bwertung EFA

-hängt von kompetenten und verantwortungsvollen Anwender ab

- viele nicht objektive Entscheidungen müssen getroffen werden

-Gefahr der Herumprobierens

+ benötigt keine Erhebung von externen Vaidierungskriterien

+essentiell bei induktiven Tests, external begleitenden informativen Charakter

Signifikanztest für Wahl der Faktorenzahl EF

z.B. Barlett-Test (Anwendung auf Residualmatrix, um zu prüfen, ob es sich signifikant von der identitätsmatrix abweicht-> wenn ja: hinweis auf weitere Faktoren)

Problem (nach Thompson): bei großen stihproben werden auch triviale Abweichungen signifikant und oft zuviele Faktoren extrahiert werden

z.B. ML- faktorenanalyse und chi-quadrat Test: (Angemessenheit Faktoren wrd geprüft; Nullhypothese: aktuelle lösung passt zu Daten-> Signifikanz bedeutet weiter extrahieren ; faktorenzahl hängt von Stichprobengröße ab)

Kuder-Richardson 20

bei interner Konsistenz bei dichotomen Items
 

Per fiat- Messung

KTT

Es möge sein Messung

KTT ist implizit nur für Messfehler definiert, die mind. intervalskaliert sind (Berechnung von Differenzen sinnvoll)

Man geht davon aus, dass

durch Aufsummierung der Anzahl der richtigen Lösungen oder Itemantworten sich Differnzen annähern

daher sinnvoll zu interpretieren sind

Exakter Modell-Fit

Chiquadrat Test

H(0)Das Modell passt zur beobachteten Datenstruktur

Signifikanz führt zur Ablehnung

damit steigt die Wahrscheimlichkeit, dass Modell abzulehnen mit größerern Stichprobe

Wahrscheinlichkeit der Ablehung steigt zudem mit Anzahl der Freiheitsgrade (Strenge, Sparsamkeit Modell)

-> nicht alleiniges Kriterium

trotzdem unabdinglich mit p-Wert und Freiheitsgraden darzustellen

Bei nicht signifikanz: exakter Modell-Fit

Grundlage für alle approximativen und relativen Fit-Indizes (chiquadrat/df)

Was gilt für das Raschmodell?

Welche Werte kann die TRennschärfe in der PTT annehmen

Steigung im Wendepunkt

null bis plus unendlich

Reliabilitäts-Validitäts-Dilemma

Reliabilität setzt Validität technische Obergrenze

Erhöhung der Trennschärfe der Items (damit interne Konsistenz) bei gleichbleibender Validität der einzelnen Items führt zur Minderung der Validität des gesamtenTests

Test wird homogenisiert durch erhöhte Trennschärfe und Konstrukt verliert an inhaltlicher Breite-> Korrelation mit heterogenen Außenkriterien sinkt

Minderung der Validität entsteht somit aus Verringerung der Symmetrie zwischen Test und Außenvariable durch Wegfall extern valide aber itemspezifische Varianz

Ladung

Standardisierte Gewichte je Item und Faktor

Korrelation zwischen Item und Faktor

ggf. mehrdeutig

eigentlich läd Fktor auf Item

sprachlich hat sich Item auf Faktor durchgesetzt

 

Aspekte der Verständlichkeit

keine dopplete Verneinung

keine Wörter die ncht von allen Verstanden werden

sokurz wie möglich so lang wie nötig

Was ist die faktorielle Validität inhaltlich?

Bestätigung der intendierten faktoriellen Struktur eines Tests

Stimmt die empirische Binnenstruktur mit theoretischen überein (EFA oder CFA)

Facette der Konstruktvalidität

Zusammenhang zw. mittleren Inter-Item-Korrelation und Reliabilität

linear