testkonstruktion
Testkonstruktion
Testkonstruktion
Set of flashcards Details
Flashcards | 269 |
---|---|
Language | Deutsch |
Category | Psychology |
Level | Primary School |
Created / Updated | 22.08.2014 / 13.09.2020 |
Weblink |
https://card2brain.ch/box/testkonstruktion1
|
Embed |
<iframe src="https://card2brain.ch/box/testkonstruktion1/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wovon hängt im Raschmodell die Lösungswahrscheinlichkeit eines Items ab?
Personenparameter (Fähigkeit oder Eigenschaftsausprägung) Theta
Itemparameter (Schwierigkeit Item) Sigma
[Beides wir geschätzt, die Beziehung ist probalistisch]
tau-äquivalente Messung
gleiche Mittelwerte
unterschiedliche Messfehler (Relibilitäten)
Korrelationen für Messwertbereinigte Testteile gleich
essentiell tau-äquivalent Mittelwert um konstante verschoben
Fakoranalyse: gleich hoh Ladung je Faktor, Fehlerterme verschieden
Items mit extremer Schwierigkeit beeinträchtigt
Reliabilität, Trennschärfe Validität Itemhomogenität
drei Teilbereiche der Modellprüfung in der CFA
Identifikation möglicher Schätzprobleme
Prüfung der Passung/fit zwischen implizierter und empirischer Gesamtmodell
Prüfung der einzelnen Modellparameter
unteridentifizierte Modelle
es existieren unendlich viele gleichgute Lösungen
a+b=6
Was steigert die partielle Eigenkorrelation?
kurze Skalen (anteilige Gewicht pro Item an Skala steigt)
heterogene Skala (desto geringer korrelieren die Items im Mittel miteinander -> Trennschärfe und RElibiltät bedingen sich gegenseitig)
Reliabilität oder Messgenauigkeit eines Tests in der KTT
Die Reliabilität ist in KTT definiert als Anteil der wahren Varianz an der gesamten beobachteten Varianz
Anteil der Personen, die richtig klassifiziert wurden unter allen Personen die das Kriterium erfüllen
Sensivität
Wissenschaftlichkeit Test
relativ eindeutig definierte und nachweisbar relevante Merkmale sollen erfasst werden
Konstrukion beruht auf statistischen Modellen psychologischer Testtheorien
Bewährung gemäß psychologischer Gütekriterien
Dokumetation im Detail nachvollziehbarer Form
Idealtypische Schritte in der SEM
1. Modellspezifikation
2. Bestimmung der Identifizierbarkeit des Modells
3. Design und Datenerhebung
4. Durchführung SEM
a- Festlegung von Datenmatrix und Schätzalgorithmus
b- Evaluation der Passung zwischen Daten und Modell (fit)
c- Berücksichtigung von ggf. Vergleich mit alternativen Modellen
d- Interpretation der Parameter
5. Ggf. Modifikation und Respezifikation des Modells
6. Dokumentation der Analyse im schriftlichen Bericht
Was kann bei der Direkten Oblimin verändert werden?
ist eine oblique Rotation (SEM)
es kann der Grad der Korreliertheit verändert werden
Delta= 0 maximale Korreliertheit
Delta = -4 Orthogonalität
Probleme externale Testkonstruktion
Ergebnisse situativ instabil
schlecht interpretierbare Skalen
große Stichproben erforderlich
Kreuzvalidierung zwingend
Ratingskala
ermöglichen quantitative Beurteilung
psychometrisches Optimum 5-9 Stufen
Analogskala Stufenlos
Items unipolar (logisches Minimum 0 oder nie) vs bipolare Items (Extremausprägungen sind durch gegensätzliche Begriffe gekennzeichnet)
verbale, symbolische bzw. grafische oder numerische Verankerungen führt zur Verbesserung Reliabilität und Validität
Probleme: streng genommen außer Analogskalen nur Ordinalskalenniveau
sozial erwünscht antworten (nicht spez Rating)
Tendenz zur Zustimmung (Akquieszenz) oder Ablehnungb (nichtspez. Rating)
Bevorzugung bestimmter Skalenbereiche (Mitte, Extremen)
Unterschiedlche Interpretation der Bereiche
Probleme rationale Testkonstruktion
subjektive Vorentscheidung
ungeeignet bei schlecht definierten oder wenig erforschten Situationen
großer konzeptioneller Aufwand
Faktorwerte
Messwerte, die Ausprägung auf latentem Merkmal beschreiben
gewichtete Kombination der Items, die zu dem jeweiligen Faktor beitragen
In SPSS in der Koeffizientenmatrix der Faktorenwerte -> aus Datenberechnet und damit sehr stichprobenabhängig
Eindeutigkeit
nur ein sachlicher Gedanke
keune stake Verallgemeinerungen
eindeutige zeitl. und situative Bezüge
Wie errechnenen sich Faktorwerte?
gewichtete Kombination der Items, die zum jeweiligen Faktor beitragen
in SPSS in der Koeffizientenmatrix der Faktorwerte
werden aus Daten errechnet und damit extrem stichprobenabhängig
Regressionsberechnung (z-standardisierte Variablen -> keine Mittelwertvergleiche möglich, immer Null)
aber Vergleich zwischen zweit Teilstichproben (Mann, Frau)
Prinzip der PAF
Berechnung erfolgt schrittweise
Algorithmus ist iterativ
Es wird PCA durchgeführt
neu geschätzten Kommunalitäten werden in Diagonale der Korrelationsmatrix eingesetzt (statt R² )
erneute PCA mit Kommunalitätenschätzung etc.
solange bis gemäß Abbruchkriterium konvergiert (z.B. 25 Iterationen)
Entdeckung theoretischer Variablen
theoriebildenes bzw. hypothesengenerierendes Verfahren
komperative Fit-Indizes
(auch inkrementelle)
Fit als proportionale Verbesserung gegenüber dem Nullmodell (independence model)
Typenklassen 1-3, je höher desto mehr Informationen gehen ein
je höher Index,desto besser die Passung
Reihenfolgeeffekte
Assimilationseffekt: positive Verzerrung einer vorherigen Darbietung einer positiven Verankerung
Kontrasteffekt negative Verzerrung """""""""
Kontexteffekte innerhalb Items oder durch Gruppeirung Items
sytsmatische Verzerrung durch zufälige Reihung minimieren
überhöhter Korrelation bei mehrdimensionalen tests dadurch inhaltlich zusammenhängende Items mögcihst entfernt voneinander
Leistungstest in aufstegender Schwierigkeit sortiert
grafischer Modelltest für Raschmodell
Streudiagramm
geschätze Itemparameter aus zwei Stichproben (z.B. Median, Alter, Geschlecht)
für resultierende Teilstichproben werden Itemparameter geschätzt
Idealfall (Item soll in jeder Stichprobe, dieselben Eigenschaften messen-> Schätzung soll gleichausfallen für jede beliebige Schätzung)
Itemparameter liegen auf einer Regressionsgerade die mit der Winkelhalbierende zusammen fällt
Anteil der richig klassifizierten Personen unter allen Personen die das Kriterium nicht erfüllen
Spezifität
Bezug Test und Testtheorie
Testtheorie als Theorie des zusammenhangs zwischen Testverhalten und psychischen Merkmalen
Was stimmt?
BL89
Fit Index von Bollen 1989
Typ2
maximal >1
cut off .95
Wann unterscheiden sich Muster und Strukturmatrix?
Was verstärkt den Unterschied?
Muster und Strukturmatrix bei obliquer Rotation vershieden (orthogonaler sind sie identisch)
Unterscheiden sich stärker je höher Faktoren korrelieren
Strukturmatrix enthält oft höhere Korrelationen als Mustermatrix
IPIP
freizugängliche Quelle für Persönlichkeitsitems
International Personality Item Pool
Wie kann ich die Reliabilität erhöhen?
mittlere Schwierigkeit und hohe Trennschärfe (Korrelation der Skala mit Items -> "freir von Messfehlern")
Bwertung EFA
-hängt von kompetenten und verantwortungsvollen Anwender ab
- viele nicht objektive Entscheidungen müssen getroffen werden
-Gefahr der Herumprobierens
+ benötigt keine Erhebung von externen Vaidierungskriterien
+essentiell bei induktiven Tests, external begleitenden informativen Charakter
Signifikanztest für Wahl der Faktorenzahl EF
z.B. Barlett-Test (Anwendung auf Residualmatrix, um zu prüfen, ob es sich signifikant von der identitätsmatrix abweicht-> wenn ja: hinweis auf weitere Faktoren)
Problem (nach Thompson): bei großen stihproben werden auch triviale Abweichungen signifikant und oft zuviele Faktoren extrahiert werden
z.B. ML- faktorenanalyse und chi-quadrat Test: (Angemessenheit Faktoren wrd geprüft; Nullhypothese: aktuelle lösung passt zu Daten-> Signifikanz bedeutet weiter extrahieren ; faktorenzahl hängt von Stichprobengröße ab)
Kuder-Richardson 20
bei interner Konsistenz bei dichotomen Items
Per fiat- Messung
KTT
Es möge sein Messung
KTT ist implizit nur für Messfehler definiert, die mind. intervalskaliert sind (Berechnung von Differenzen sinnvoll)
Man geht davon aus, dass
durch Aufsummierung der Anzahl der richtigen Lösungen oder Itemantworten sich Differnzen annähern
daher sinnvoll zu interpretieren sind
Exakter Modell-Fit
Chiquadrat Test
H(0)Das Modell passt zur beobachteten Datenstruktur
Signifikanz führt zur Ablehnung
damit steigt die Wahrscheimlichkeit, dass Modell abzulehnen mit größerern Stichprobe
Wahrscheinlichkeit der Ablehung steigt zudem mit Anzahl der Freiheitsgrade (Strenge, Sparsamkeit Modell)
-> nicht alleiniges Kriterium
trotzdem unabdinglich mit p-Wert und Freiheitsgraden darzustellen
Bei nicht signifikanz: exakter Modell-Fit
Grundlage für alle approximativen und relativen Fit-Indizes (chiquadrat/df)
Was gilt für das Raschmodell?
Welche Werte kann die TRennschärfe in der PTT annehmen
Steigung im Wendepunkt
null bis plus unendlich
Reliabilitäts-Validitäts-Dilemma
Reliabilität setzt Validität technische Obergrenze
Erhöhung der Trennschärfe der Items (damit interne Konsistenz) bei gleichbleibender Validität der einzelnen Items führt zur Minderung der Validität des gesamtenTests
Test wird homogenisiert durch erhöhte Trennschärfe und Konstrukt verliert an inhaltlicher Breite-> Korrelation mit heterogenen Außenkriterien sinkt
Minderung der Validität entsteht somit aus Verringerung der Symmetrie zwischen Test und Außenvariable durch Wegfall extern valide aber itemspezifische Varianz
Ladung
Standardisierte Gewichte je Item und Faktor
Korrelation zwischen Item und Faktor
ggf. mehrdeutig
eigentlich läd Fktor auf Item
sprachlich hat sich Item auf Faktor durchgesetzt
Aspekte der Verständlichkeit
keine dopplete Verneinung
keine Wörter die ncht von allen Verstanden werden
sokurz wie möglich so lang wie nötig
Was ist die faktorielle Validität inhaltlich?
Bestätigung der intendierten faktoriellen Struktur eines Tests
Stimmt die empirische Binnenstruktur mit theoretischen überein (EFA oder CFA)
Facette der Konstruktvalidität
Zusammenhang zw. mittleren Inter-Item-Korrelation und Reliabilität
linear