testkonstruktion
Testkonstruktion
Testkonstruktion
Fichier Détails
Cartes-fiches | 269 |
---|---|
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | École primaire |
Crée / Actualisé | 22.08.2014 / 13.09.2020 |
Lien de web |
https://card2brain.ch/box/testkonstruktion1
|
Intégrer |
<iframe src="https://card2brain.ch/box/testkonstruktion1/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Part-whole-Korrektur
Korrektur Trennschärfe, sodass betreffende Item nicht mit in den Skalenwer eingeht
Der unkorrigierte Wert stellt eine partielle Eigenkorrelation dar
Spearman-Brown-Formel
Korrekturformel zu Ermittlung der Reliabilität bei interner Konsistenz
Verdopplung Test (Hinzufügen paralleler Test gleicher Länge): neue Varainz= Varinazen alte Test plus zweifach Kovarinzen alte Tests
wahre Varinaz geht doppelt ein Fehlervarinaz der alten Tests aber nur einfach -> alte Test reliabler als der alte
Halbierung Test: künstliche Verkürzung muss Reliabilität aufgewertet werden um wahren Wert der Reliabilität abzuschätzen
K=2 bei Testhalbierung
Was sind Methoden zum Umgang mit ungünstigen Verteilungseigenschaften?
~Transformation der Items (z.B. log-linear) zur besseren Annäherung an Normalverteilung
~Zusammenfassung von Items zu parcels ("Päckchen") bzw. Miniskalen -> hilft zusätzlich die Reliabilität zu verbessern
es benötigt theoretsiche Vorannahmen (CFA besser geeignet)
~Faktoranalyse höherer Ordnung (EFA)
~Analyse der tetrachorischen (für dichotome) oder polychorischen (für ratingskalen) Korrelation statt Produkt-Moment Korrelation
kategoriale Daten werden als indirekte Indikatoren kontinuierlicher und normalverteilter Variablen aufgefasst
Zusammenhang Itemlösungswahrscheinlichkeit und Itemparametern
logistische Funktion
Funktion für Item wird als Item-Charactersistic-Curve (ICC) bezeichnet
badness-of-Fit
absoluter Fit-Indizes
höhere Werte einen schlechteren Fit anzeigen
(standardized) Root Mean Square Residual (S)RMR
Root Mean Square Error of Approximation RMSEA
Wie geht man in der SEM damit um, dass die Populationsmatrix nicht beobachtet werden kann
(Schätzalgorithmus)
es wird die empirische Kovarianzmatrix S (oder Korrelationsmatrix R) verwendet
Um die Disprepanz zwischen empirischer und implizieter Matrix zu quantifizieren wird Diskrepanzfunktion minimiert
genau Form unterscheidet sich zwischen Schätzalgorithmen
nomologisches Netz
Idealtypisches Vorgehen des empirischen Vorgehens bei der Konstruktvalidierung von Cronbach und Meehl
Konstruktvalidierung der schrittweisen Überprüfung der Regeln im nomolgischen Netz
hypothetico-deduktives Vorgehen
in der Praxis oft schwaches exploratives Vorgehen, statt Überprüfung des starken hypothetico-deduktiven Ideals (oft zuschwache Formulierung)
Bereich der Theorie lässt Vorhersagen für Bereich des Beobachtbaren zu
Alle Verbindungslinien in und zwischen Bereich der Theorie und des Beobachtbaren ergeben nomologisches Netz
Prototypenansatz
Ähnlichkeit mit idealtypisch eingeschätzer Vertreter eines Typus oder Verhaltensweise als Ankerreiz für Einschätzung anderer Objekte
Mermale iterativer SchätzungenStichprobengröße
Skalennievau
wird multivariate Normalverteilung vorrausgesetzt??
positiv definit
skaleninvariante Fitfunktion
skalenfreie Parameter
Robustheit
Was ist das Problem, wenn in der Faktoreanalyse zweiter Ordnung mit genau zwei Primärfaktoren übr Kovarianz liegt nur eine empirische Information vor (Korrelation)
Strukturmodell der latenten Variable nicht identifiziert, Messmodell kann überidentifiziert sein
Kann durch zusätzliche Restriktionen gelöst werden
Spearman-Brown-Formel
Korrekturformel zu Ermittlung der Reliabilität bei interner Konsistenz
Verdopplung Test (Hinzufügen paralleler Test gleicher Länge): neue Varainz= Varinazen alte Test plus zweifach Kovarinzen alte Tests
wahre Varinaz geht doppelt ein Fehlervarinaz der alten Tests aber nur einfach -> alte Test reliabler als der alte
Halbierung Test: künstliche Verkürzung muss Reliabilität aufgewertet werden um wahren Wert der Reliabilität abzuschätzen
K=2 bei Testhalbierung
Verfahren EFA zur Auswahl Faktoren/ Extraktion zusätzlicher Faktoren für zusätzliche Varianzaufklörung bis zu welchem Punkt mittels welcher Verfahren (neben theoretischen Aspekten
Kaiser-Guttman-Kriterium (KG-Kriterium)
Scree-Test
statistische Tests (Sigifikanztest, Parallelanalyse, MAP-Test
negative Trennschärfe
führt zur Eliminierung des Items
Vorher prüfen ob Item auch wirklich rekodiert wurde
Zusätzliche Vorrausetzung im ordinalen Raschmodell
Antwortschwellen müssen geordnet sein und dürfen sich somit nicht überschneiden
ROC Analyse
Bestimmung des theoretische Optimums für Schellenwerte
Vorraussetzung: Untersuchuung wird mit zwei Gruppen durchgeführt deren korrekte Klassifikation bekannt ist, Test muss zwischen Gruppen trennen können-> ansonsten alle Schwellenwerte gleich gut/Schlecht
Erhöhung Trefferquote auf Kosten einer Erhöhung der Zahl falsch positiver Klassifikation
(Erhöhung Senivität auf Kosten Spezifität)
ROC bestimmt Schwellenwert an dem Summe der Sensivität und Spezifität am höchsten ist
Merkmale von SEM nach Kline
~konfirmatorisch und zwingt zum Denken in Modellen
~differenziert zwischen manifesten und latenten Variablen (Beschränkung manifeste Ebene als Spezialfall)
~Analyse Kovarianzen
~meist korrelative Designs, Untersuchung experimentell erhobener Daten möglich
~wichtigsten explorative Verfahren der multivariaten Statistik lassen sich als Spezialfälle der SEM sehen
~erfordert große Stichproben
~Signifikanztests möglich aber untergeordnete Rolle
Prinzipien und Strategien der Testkonstruktion
rationale /deduktive /theoriegeleitete
externale/ empirische/ kriteriumsgeleitete
internale/ induktive/ faktoranalytische
Sonderfälle:
typologisierende
Prototypenansatz
wie sind Item und Personenparameter im Raschmodell verknüpft?
subtraktiv:
Personenfähigkeit- Itemschwierigkeit
Vorgehen nachdem Kommunalität in einem ersten Schritt geschätzt wurden (PCA,PAF)
erste unrotierte Faktorenlösung
es existieren unendlich viele Lösungen für Modell der mehreren gemeinsamen Faktoren für das Gleichungssystem
-> unendlich viele Kombinationen von Faktorwert und Ladungen
Es wird nach eindeutiger und optimaler Lösung (nach Kriterien) gesucht
Konvergenz des Algorithmus (Suche wird nach methodenspezifischen Kriterien abgebrochen)
PCA konvergiert immer ohne weitere Restriktion
PAF und andere ggf. weitere Restriktion
Kritik extrnale Strategie
atheoretische Anpassung an die Stichprobe -> schwer interpretierbare Skalen, große und repräsentative Stichproben , unabhängige Replikation (Kreuzvalidierung)
lokale Unabhängigkeit
bei lokaler Unabhängkeit ist Eindimensionalität gegeben
Korrelation zwischen Items verschwindet nach auspartialisierung der latenten Eigenschaft
Trennschärfe bei dichotomen Items
punktbiserale Korrelation
modellvergleichende Indizes
für nicht genestete Modelle
nicht standardisiert
ausschleßlich Rangordnung (keine Effektstärke) niedrigster Wert bester Fit
Kann satuierte Modell auf Grund Parsimonität miteinschließen, dessen Fit nicht perfekt ist (Unterschied Indizes Passung Daten Modell), sondern von theoretischen Modellen übertroffen werden sollte
AIC ECVI gleiche Rangordnung
CAIC ggf andere
Was trifft auf die Validität zu?
Chi-Quadrat-Differenzen-Test
Signifikanztest
genestete Modelle
Chi-Quadrat-Test für arithmetische Differenzen der CHi-Quadrat-Werte, sowie deren Zahl der Freiheitsgrade, der zuvergleichenden Modelle
Werte stamen aus gleicher Stichprobe,impliziet wird Parsimontät des Modells (Zahl der Freiheitsgrade) relativiet
-> Großteil Probleme des chi-Quadrat- Test entfällt
Fit Indezes haben für genestete Modelle nur begrenzten Zusatznutzen
Kaiser-Guttman-Kriterium (KG-Kriterium)
Obergrenze für Anzahl zu extrahierenden Varaiben
In PCA (nur Hauptkomponentenanalyse!!!) sollen alle Variablen extrahiert werden deren Eigenwert >1
Neue Variabe klärt mehr Varianz auf als alte (unterhalb keine datenreduktion)
Probleme der Gütebeurteilung
Wodurch sind niedrige Fähigkeiten und leichte Items gekennzeichnet?
negative Parameter in Logit-Einheiten der Modellparameter
Testungstrategie
normorientierte Konstrukttest vs. kriterienorientierte Tests
Konstrukttests: wissenschaftlich begründbarer Rückschluss auf Konstrukte, normrientiert relativ zur durchschnittlichen Ausprägung einer Bezugsgruppe)
Kriterienorientierte Tests: aus pädagogischen Bereich, individuelle Testleistung in Bezug zu Idealnorm
Kritik KTT
Axiome nicht immer in der Praxis haltbar:
Zuschreibung Bias zu dem wahren Wert
Keine Verbindung zwischen Fähigkeit, Merkmal oder Eigeschaft und Itembeantwortung
Übungs- und Transfereffekte als systematische Veränderung
-> fehlender Zusammenhang wahrer Wert&Messfehler? Konstanz wahrer Wert über Messung?
Ungenaue Messung in Extrembereichen
Vorraussetzung von Eindimensionalität ohne Prüfung
durch fehlende Korrelation zwischen Fehlern der Messwerte
Stichprobenabhängigkeit:
je nach Referenzgruppe völlig andere Bedeutung der individuellen Leistung
-> Gütekriterien für verschiedene Teilstichproben
Anwendungsgebiete Tests
Kliniken
allgemeine psychsoziale Beratung
Staatliche Verwaltung
Forensischer bereich
Betriebe/ Personalauswahl
Schulen/ pädagogischer Bereich
Militär
Marktforschung/ Werbepsychologie
Forshung
Welche Werte kann die Trennschärfe in der KTT annehmen
es ist die Korrelation und damit zwischen -1 und 1
Wie wird in der Varimax die komplexität vereinfacht?
Unterschiede der Ladungen innerhalb eines Faktors werden maximiert
-> Hohe Ladungen je Faktor werden noch höher, niedrige noch niedriger
Erhöht die Interpretierbarkeit des Faktor, aber nicht zwingend die Eindeutigkeit der Zuordnung der Items zum Faktor
Wodurch wird Annahme der kongenerischen Messung geprüft?
strukturelle Form
d.h. durch Freisetzung theoretisch relevanter Ladungsparameter und Fixierung der übrigen Ladung auf dem Wert Null
Maximum Likelihood ML
Standardmethode für die SEM ursprünglich entwickelt wurde
N-> unendlich Schätzung asymptotisch korrekt
asymptotisch normalverteilte Fehler
skaleninvariant ggf. Ausnahmen bei Korrelationsmatrix
skalenfrei ggf. Ausnahmen bei Korrelationsmatrix
multivariate Normalverteilung wird vorrausgesetzt, recht robust (Grenzwerte Schiefe <2, Exzess <7
große Stichproben
Verletzungen der Annahmen führenzu fehlerhaften Schätzungen der Parameter , Standardfehler und Prüfstatistiken
Beurteilungssysteme
Buros- System Buros-Institut (nordamerikanisch)
COTAN-System Comitee on Test Affairs Netherlands
Testbeurteilungssystem des Testkuratoriums (TBS-TK) Testkuratorium der Förderation Deutscher Psychologen
DIN Screen Kersting [Ergänzung der TBS-TK um Din Krierien]
Unweighted Least Squares
Algorithmus entspricht einer Variante der PAF in EFA
+Weitgehend Vorraussetzungsfrei
-nicht skaleninvariant nicht skalenfrei
-> nur auf Korrelationsmatrix (Variablen einheitlicher Skalierung)
- Varianz der Schätzung fällt größer aus als ML und GLS
Was trifft auf die Validität zu?
Welche Teilmodelle gibt es in einem vollständigen Strukturgleichungsmodell?
Messmodell exogener Variablen [exogene latente Variable und dazugehöriger Indikator]
Messmodell endogener Variablen [latente endogene Variblen und dazugehörigen Indikatoren]
Strukturmodell [Beziehung der latenten Variablen, exogen und endogen]
Anteil der falsch klassifizierten Personen unter allen Personen die das Kriterium tatsächlich erfüllen
Verpasserquote