testkonstruktion

Testkonstruktion

Testkonstruktion


Set of flashcards Details

Flashcards 269
Language Deutsch
Category Psychology
Level Primary School
Created / Updated 22.08.2014 / 13.09.2020
Weblink
https://card2brain.ch/box/testkonstruktion1
Embed
<iframe src="https://card2brain.ch/box/testkonstruktion1/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Part-whole-Korrektur

Korrektur Trennschärfe, sodass betreffende Item nicht mit in den Skalenwer eingeht

 

Der unkorrigierte Wert stellt eine partielle Eigenkorrelation dar

Spearman-Brown-Formel

Korrekturformel zu Ermittlung der Reliabilität bei interner Konsistenz

 

Verdopplung Test (Hinzufügen paralleler Test gleicher Länge): neue Varainz= Varinazen alte Test plus zweifach Kovarinzen alte Tests

wahre Varinaz geht doppelt ein Fehlervarinaz der alten Tests aber nur einfach -> alte Test reliabler als der alte

 

Halbierung Test: künstliche Verkürzung muss Reliabilität aufgewertet werden um wahren Wert der Reliabilität abzuschätzen

K=2 bei Testhalbierung
 

Was sind Methoden zum Umgang mit ungünstigen Verteilungseigenschaften?

~Transformation der Items (z.B. log-linear) zur besseren Annäherung an Normalverteilung

~Zusammenfassung von Items zu parcels ("Päckchen") bzw. Miniskalen -> hilft zusätzlich die Reliabilität zu verbessern

es benötigt theoretsiche Vorannahmen (CFA besser geeignet)

~Faktoranalyse höherer Ordnung (EFA)

~Analyse der tetrachorischen (für dichotome) oder polychorischen (für ratingskalen) Korrelation statt Produkt-Moment Korrelation

kategoriale Daten werden als indirekte Indikatoren kontinuierlicher und normalverteilter Variablen aufgefasst

Zusammenhang Itemlösungswahrscheinlichkeit und Itemparametern

logistische Funktion

Funktion für Item wird als Item-Charactersistic-Curve (ICC) bezeichnet

badness-of-Fit

absoluter Fit-Indizes

höhere Werte einen schlechteren Fit anzeigen

(standardized) Root Mean Square Residual (S)RMR

Root Mean Square Error of Approximation RMSEA

 

Wie geht man in der SEM damit um, dass die Populationsmatrix nicht beobachtet werden kann

(Schätzalgorithmus)

es wird die empirische Kovarianzmatrix S (oder Korrelationsmatrix R) verwendet

Um die Disprepanz zwischen empirischer und implizieter Matrix zu quantifizieren wird Diskrepanzfunktion minimiert

genau Form unterscheidet sich zwischen Schätzalgorithmen

nomologisches Netz

Idealtypisches Vorgehen des empirischen Vorgehens bei der Konstruktvalidierung von Cronbach und Meehl

Konstruktvalidierung der  schrittweisen Überprüfung der Regeln im nomolgischen Netz

hypothetico-deduktives Vorgehen

in der Praxis oft schwaches exploratives Vorgehen, statt Überprüfung des starken hypothetico-deduktiven Ideals (oft zuschwache Formulierung)

Bereich der Theorie lässt Vorhersagen für Bereich des Beobachtbaren zu

Alle Verbindungslinien in und zwischen Bereich der Theorie und des Beobachtbaren ergeben nomologisches Netz

Prototypenansatz

Ähnlichkeit mit idealtypisch eingeschätzer Vertreter  eines Typus oder Verhaltensweise als Ankerreiz für Einschätzung anderer Objekte

Mermale iterativer SchätzungenStichprobengröße

Skalennievau

wird multivariate Normalverteilung vorrausgesetzt??

positiv definit

skaleninvariante Fitfunktion

skalenfreie Parameter

Robustheit

Was ist das Problem, wenn in der Faktoreanalyse zweiter Ordnung mit genau zwei Primärfaktoren übr Kovarianz liegt nur eine empirische Information vor (Korrelation)

Strukturmodell der latenten Variable nicht identifiziert, Messmodell kann überidentifiziert sein

Kann durch zusätzliche Restriktionen gelöst werden

Spearman-Brown-Formel

Korrekturformel zu Ermittlung der Reliabilität bei interner Konsistenz

 

Verdopplung Test (Hinzufügen paralleler Test gleicher Länge): neue Varainz= Varinazen alte Test plus zweifach Kovarinzen alte Tests

wahre Varinaz geht doppelt ein Fehlervarinaz der alten Tests aber nur einfach -> alte Test reliabler als der alte

 

Halbierung Test: künstliche Verkürzung muss Reliabilität aufgewertet werden um wahren Wert der Reliabilität abzuschätzen

K=2 bei Testhalbierung
 

Verfahren EFA zur Auswahl Faktoren/ Extraktion zusätzlicher Faktoren für zusätzliche Varianzaufklörung bis zu welchem Punkt mittels welcher Verfahren (neben theoretischen Aspekten

Kaiser-Guttman-Kriterium (KG-Kriterium)

Scree-Test

statistische Tests (Sigifikanztest, Parallelanalyse, MAP-Test

negative Trennschärfe

führt zur Eliminierung des Items

 

Vorher prüfen ob Item auch wirklich rekodiert wurde

Zusätzliche Vorrausetzung im ordinalen Raschmodell

Antwortschwellen müssen geordnet sein und dürfen sich somit nicht überschneiden

ROC Analyse

Bestimmung des theoretische Optimums für Schellenwerte

Vorraussetzung:  Untersuchuung wird mit zwei Gruppen durchgeführt deren korrekte Klassifikation  bekannt ist, Test muss zwischen Gruppen trennen können-> ansonsten alle Schwellenwerte gleich gut/Schlecht

Erhöhung Trefferquote auf Kosten einer Erhöhung der Zahl falsch positiver Klassifikation

(Erhöhung Senivität auf Kosten Spezifität)

ROC bestimmt Schwellenwert an dem Summe der  Sensivität und Spezifität am höchsten ist

Merkmale von SEM nach Kline

~konfirmatorisch und zwingt zum Denken in Modellen

~differenziert zwischen manifesten und latenten Variablen (Beschränkung manifeste Ebene als Spezialfall)

~Analyse Kovarianzen

~meist korrelative Designs, Untersuchung experimentell erhobener Daten möglich

~wichtigsten explorative Verfahren der multivariaten Statistik lassen sich als Spezialfälle der SEM sehen

~erfordert große Stichproben

~Signifikanztests möglich aber untergeordnete Rolle

Prinzipien und Strategien der Testkonstruktion

rationale /deduktive /theoriegeleitete

externale/ empirische/ kriteriumsgeleitete

internale/ induktive/ faktoranalytische

Sonderfälle:

typologisierende

Prototypenansatz

wie sind Item und Personenparameter im Raschmodell verknüpft?

subtraktiv:

Personenfähigkeit- Itemschwierigkeit

Vorgehen nachdem Kommunalität in einem ersten Schritt geschätzt wurden (PCA,PAF)

erste unrotierte Faktorenlösung

es existieren unendlich viele Lösungen für Modell der  mehreren gemeinsamen Faktoren für das Gleichungssystem

-> unendlich viele Kombinationen von Faktorwert und Ladungen

Es wird nach eindeutiger und optimaler Lösung (nach Kriterien) gesucht

Konvergenz des Algorithmus (Suche wird nach methodenspezifischen Kriterien abgebrochen)

PCA konvergiert immer ohne weitere Restriktion

PAF und andere ggf. weitere Restriktion

Kritik extrnale Strategie

atheoretische Anpassung an die Stichprobe -> schwer interpretierbare Skalen, große und repräsentative Stichproben , unabhängige Replikation (Kreuzvalidierung)

lokale Unabhängigkeit

bei lokaler Unabhängkeit ist Eindimensionalität gegeben

Korrelation zwischen Items verschwindet nach auspartialisierung der latenten Eigenschaft

Trennschärfe bei dichotomen Items

punktbiserale Korrelation

modellvergleichende Indizes

für nicht genestete Modelle

nicht standardisiert

 

ausschleßlich Rangordnung (keine Effektstärke) niedrigster Wert bester Fit

Kann satuierte Modell auf Grund Parsimonität miteinschließen, dessen Fit nicht perfekt ist (Unterschied Indizes Passung Daten Modell), sondern von theoretischen Modellen übertroffen werden sollte

AIC ECVI gleiche Rangordnung

CAIC ggf andere

Was trifft auf die Validität zu?

Chi-Quadrat-Differenzen-Test

Signifikanztest

genestete Modelle

Chi-Quadrat-Test für arithmetische Differenzen der CHi-Quadrat-Werte, sowie deren Zahl der Freiheitsgrade, der zuvergleichenden Modelle

Werte stamen aus gleicher Stichprobe,impliziet wird Parsimontät des Modells (Zahl der Freiheitsgrade) relativiet

-> Großteil Probleme des chi-Quadrat- Test entfällt

Fit Indezes haben für genestete Modelle nur begrenzten Zusatznutzen

 

Kaiser-Guttman-Kriterium (KG-Kriterium)

Obergrenze für Anzahl zu extrahierenden Varaiben

In PCA (nur Hauptkomponentenanalyse!!!) sollen alle Variablen extrahiert werden deren Eigenwert >1

Neue Variabe klärt mehr Varianz auf als alte (unterhalb keine datenreduktion)

Probleme der Gütebeurteilung

Wodurch sind niedrige Fähigkeiten und leichte Items gekennzeichnet?

negative Parameter in Logit-Einheiten der Modellparameter

Testungstrategie

normorientierte Konstrukttest vs. kriterienorientierte Tests

Konstrukttests: wissenschaftlich begründbarer Rückschluss auf Konstrukte, normrientiert relativ zur durchschnittlichen Ausprägung einer Bezugsgruppe)

Kriterienorientierte Tests: aus pädagogischen Bereich, individuelle Testleistung in Bezug zu Idealnorm

Kritik KTT

Axiome nicht immer in der Praxis haltbar:

Zuschreibung Bias zu dem wahren Wert

Keine Verbindung zwischen Fähigkeit, Merkmal oder Eigeschaft und Itembeantwortung

Übungs- und Transfereffekte als systematische Veränderung

-> fehlender Zusammenhang wahrer Wert&Messfehler? Konstanz wahrer Wert über Messung?

Ungenaue Messung in Extrembereichen

Vorraussetzung von Eindimensionalität ohne Prüfung

durch fehlende Korrelation zwischen Fehlern der Messwerte

Stichprobenabhängigkeit:

je nach Referenzgruppe völlig andere Bedeutung der individuellen Leistung

-> Gütekriterien für verschiedene Teilstichproben

Anwendungsgebiete Tests

Kliniken

allgemeine psychsoziale Beratung

Staatliche Verwaltung

Forensischer bereich

Betriebe/ Personalauswahl

Schulen/ pädagogischer Bereich

Militär

Marktforschung/ Werbepsychologie

Forshung

Welche Werte kann die Trennschärfe in der KTT annehmen

es ist die Korrelation und damit zwischen -1 und 1

Wie wird in der Varimax die komplexität vereinfacht?

Unterschiede der Ladungen innerhalb eines Faktors werden maximiert

-> Hohe Ladungen je Faktor werden noch höher, niedrige noch niedriger

Erhöht die Interpretierbarkeit des Faktor, aber nicht zwingend die Eindeutigkeit der Zuordnung der Items zum Faktor

 Wodurch wird Annahme der kongenerischen Messung geprüft?

strukturelle Form

d.h. durch Freisetzung theoretisch relevanter Ladungsparameter und Fixierung der übrigen Ladung auf dem Wert Null

Maximum Likelihood ML

Standardmethode für die SEM ursprünglich entwickelt wurde

N-> unendlich Schätzung asymptotisch korrekt

asymptotisch normalverteilte Fehler

skaleninvariant ggf. Ausnahmen bei Korrelationsmatrix

skalenfrei ggf. Ausnahmen bei Korrelationsmatrix

multivariate Normalverteilung wird vorrausgesetzt, recht robust (Grenzwerte Schiefe <2, Exzess <7

große Stichproben

Verletzungen der Annahmen führenzu fehlerhaften Schätzungen der Parameter , Standardfehler und Prüfstatistiken

Beurteilungssysteme

 

Buros- System Buros-Institut (nordamerikanisch)

COTAN-System Comitee on Test Affairs Netherlands

Testbeurteilungssystem des Testkuratoriums (TBS-TK) Testkuratorium der Förderation Deutscher Psychologen

DIN Screen Kersting [Ergänzung der TBS-TK um Din Krierien]

 

Unweighted Least Squares

Algorithmus entspricht einer Variante der PAF in EFA

+Weitgehend Vorraussetzungsfrei

-nicht skaleninvariant nicht skalenfrei

-> nur auf Korrelationsmatrix (Variablen einheitlicher Skalierung)

- Varianz der Schätzung fällt größer aus als ML und GLS

Was trifft auf die Validität zu?

Welche Teilmodelle gibt es in einem vollständigen Strukturgleichungsmodell?

Messmodell exogener Variablen [exogene latente Variable und dazugehöriger Indikator]

Messmodell endogener Variablen [latente endogene Variblen und dazugehörigen Indikatoren]

Strukturmodell [Beziehung der latenten Variablen, exogen und endogen]

Anteil der falsch klassifizierten Personen unter allen Personen die das Kriterium tatsächlich erfüllen

Verpasserquote