M6 Grundlagen der Testkonstruktion 03421

Fragen zum Skript: Grundlagen psychologischer Testverfahren, Testkonstruktion von der Planung zum Entwurf, Itemanalyse, Skalenbildung (EFA, CFA), Evaluation psychologischer Testverfahren

Fragen zum Skript: Grundlagen psychologischer Testverfahren, Testkonstruktion von der Planung zum Entwurf, Itemanalyse, Skalenbildung (EFA, CFA), Evaluation psychologischer Testverfahren

Jasmin Wenzel

Jasmin Wenzel

Fichier Détails

Cartes-fiches 85
Utilisateurs 24
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 10.09.2013 / 26.08.2018
Lien de web
https://card2brain.ch/box/m6_grundlagen_der_testkonstruktion_03421
Intégrer
<iframe src="https://card2brain.ch/box/m6_grundlagen_der_testkonstruktion_03421/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Faktorwerte

- genaue individuelle Ausprägungen auf den neu ermittleten Variablen berechnen (inklusive Nebenladung)

- gewichtete Kombination der Items, die zu den jeweiligen Faktoren beitragen

-> Koeffizientenmatrix der Faktorwerte (indirekt aus Daten berechnen)

-> Berechnung durch Regressionsrechnung

Kennzeichnende Aspekte des Linearen Strukturgleichungsmodelles (SEM)

- konfirmatorisch

- differenziert zwischen manifesten und latenten Variablen

- Analyse von Kovarianzmatrizen (Analyse von Korrelationen und Mittelwerten möglich)

- EFA, multiple Regression, Varianzanalyse, Pfadanalyse als Spezialfälle der SEM

- große Stichproben

- Signifikanztests spielen untergeordnete Rolle, wichtiger Gütekriterien

Darstellung in Pfaddiagrammen

- abhängige/ endogene latente Variablen innerhalb des Modells erklärt

- unabhängige/ exogene latente V. nicht erklärt

- latente Konstrukte als Elipsen, Schreibweise griech. Buchstaben

- Indikatorvaraiblen in Kästen, endogen (y) & exogen (x)

-Ausprägungen von Pfeilen werden von Programm geschätzt

Aufgabe einer SEM-Analyse

Gleichungssystem simultan auflösen:

- theoretische Randbedingungen für System definieren

- methodische Varianten

- Interpretation der Ergebnisse

1) Modellspezifikation: Parameterfixierung

- frei (post hoc frei berechnet)

- fix (z.B. Null oder Eins)

- beschränkt (Gleichheitsbeschränkungen, Ungleichheitsbeschränkungen)

2) Identifizierbarkeit des Modells: Gleichung

- unterindentifiziert: unendlich viele Lösungen

- gerade identifiziert: genau eine Lösung

- überidentifiziert: nur Näherungslösungen, Idealfall, mehr empirische Information als zu schätzende Parameter -> Freiheitsgrad (df)

4a) Ausgangsmatrix und Schätzalogrithmus: iterative Verfahren

Merkmale: multivariate Normalverteilung, postiv definitve Matrix, skaleninvariant & skalenfrei

- Maximum-Likelihood (ML): skaleninvariant & skalenfrei, multivariate Normalverteilung

- Generalized Least Square (GLS): eng mit ML verwandt, eher etwas schlechter

- Unweighted Least Square (ULS): skalenfrei, skaleninvarianz nicht gegeben

- Asymptotically Distribution Free (ADF):  Gruppe von Methoden (WLS, DWLS, ERLS) skalenfrei, skaleninvariat, kaum Verteilungsannahmen aber große Stichprobe -> ALTERNATIVE ZUR ML, GERADE WENN KEINE NORMALVERTEILUNG vorliegt

 

4b) Modelltest: Schätzprobleme

- Nicht-Kovergenz: Wird direkt zurückgemeldet, Schätzlogarithmus konvergiert nicht

- Heywood-Cases: unzulässige Lösungen (technische Ursachen oder grobe Fehlspezifikation)

4b Modelltests: Fit-Indizes

-> Wenn Schätzung im zulässigen Bereich konvergiert, dann kann Güte der Lösung global evaluiert werden.

- Signifikanztests (Chi²-Test) (Ablehnung bei siginifikanten Befund, eher kleine Stichproben hilfreich)

- Fit-Indizes: nicht signifikante Tests als Hinweis auf exakten Modell-Fit -> Versuch das Ausmaß der Modellgüte in einem Index (0-1) zu quantifizieren

- Badness-of-Fit-Indizes: höhere Werte=schlechterer Fit

- Goodness-of-Fit-Indizes: hohe Werte=gute Passung

-> Fitindizes nicht unabhängig von Chi²-Test

Sensitivität und Spezifität

Sensitivität: RP/ (FN+RP) -> Anteil der richtig klassifizierten Personen unter allen Personen, die das Kriterium tatsächlich erfüllen.

 

Spezifität: RN/ (FP+RN) -> Anteil der richtig klassifizierten Personen, die das Kriterium nicht erfüllen.

Richtlinien mit Schwerpunkt Qualität

- Standards for Educational & Psychological Testing

- DIN 33430

- Principles for the Validation and Use of Personnel Selection Procedures

- Guidelines for Test Translation and Adaption

- International Guidelines on Computer-Based and Internet Delivered Testing

Beurteilungssysteme

- Buros-System

- COTAN-System

- TBS-TK

- DIN Screen

- Review Model for the Description and Evaluation of Psychological Tests

Wieso kann die Illustration von Interpretationen durch ausführliche Fallbeispiele Fehlschlüssel erhöhen?

Fallbeispiele können die Übergeneralisierung von Einzelfällen fördern

Reliabilitätsschätungen

- interne Konsistenz

- Retest-Reliabilität

- Paralleltestreliabilität

- Interrater-Reliabilität

Reliabilitä ist kein hinreichendes, aber..

...ein  notwendiges Kriterium zur Bestimmung der Güte eines Tests.

Interne Konsistenz und Homogenität

I.K. ist kein gutes Maß für Homogenität, setzt diese aber voraus.

Cronbachs-alpha-Koeffizient

- Standardmaß der internen Konsistenz

- kann Reliabilität durch systematische Messfehler (soz. Erwünschtheit) überschätzen

- Varianz des Testitems, Anzahl der Testitems, Varianz des Gesamtwerts der Skala

COTAN-Testbeurteilungssystem

1. Niveau -> .80 (Einzellfall)

2. Niveau -> .70 (weniger wichtige Einzelfalldiagnostik)

3. Niveau -> .60 (Gruppenuntersuchung)

Dreifaltigkeitslehre

1) Inhaltsvalidität

2) Konstruktvalidität

3) Kriteriumsvalidität

Konvergente und diskriminante V. prüfen

- im einfachsten Fall bivariate Korrelation

-> Unterschätzung der latenten Korrelation, da Tests nicht perfekt reliabel sind

- Attenuations- oder Minderungskorrektur (einfach/ doppelt)

Reliabilitäts-Validitäts-Dilemma

Hohe Trennschärfe -> hoher Homogenität -> geringe Bandbreite des Konstrukts -> geringe Korrelation mit Außenkriterien

Multi-Trait-Multi-Method Matrix

- Prüfung der Konstruktvalidität

- Einfluss von Messerergebnisse von Einfluss der Methode trennen

- Monotrait-Monomethod -> Reliabilität

- Heterotrait-Monomethod & Heterotrait-Heteromethod -> diskriminante V.

- Monotrait-Heteromethod -> konvergente V. oder diskriminate V., wenn niedriger als Heterotrait

Konfirmatorische MTMM-Analyse

+ betrachtet auch latente Konstrukte

- Identifizierbarkeitsproblem

Effektstärke d

- bivariates Validitätsmaß

- Klassifikation von Personen in Gruppen (Diagnose depressiv vs. nicht depressiv)

- gibt Mittelwertsunterschiede in den Testwerten der beiden Gruppen in Einheiten der SD an

- d= (Mt1-Mt2)/ St.gesamt

-r & d lassen sich unmittelbar ineinander überführen

schwacher Effekt: r= .10; d= .20

mittlerer Effekt: r= .30; d= .50

starker Effekt: r= .50; d= .80

Methoden zur Kontrolle sozialer Erwünschtheit

- subtile Items

- forced-choice

- objektive Tests

- bogus pipeline (Lügendetektor) -> Hinweis auf verbesserte Validität

- Erwünschtheitsskala

Besonderheiten der Einzelfalldiagnostik

- strenge Anforderungen an Gütekriterien

- spezifische Standards für Vergleichbarkeit

- Messgenauigkeit

- COTAN-Beurteilung

1. Niveau N=300, r= .80

2. Niveau N=200, r =.70

3. Niveau N= 100, r= .60

 

Schätzung des durchschnittlichen Fehlers

- Äquivalenzhypothese & Standardmessfehler -> Annahme: beobachteter Wert ungefähr wahrer Wert, bei einzelnem Test

- Regressionshypothese & Standardschätzfehle

-> Konfidenzintervalle

Konfidenzintervalle

- geben mit festgelegter Wahrscheinlichkeit den Bereich an, in dem der wahre Wert der Testperson zu vermuten ist

-einseitig (z1-alpha) oder zweiseitig (z1-alpha/2) (Fragestellung)

- KI= X +/- SEx * z (Äquivalenz, beobachteter Wert)

- KI= t +/- SEt * z (Regression, geschätzter wahrer Wert)

Kritische Differenzen

Unterscheiden sich zwei Testwerte wirklich?

1) Unterschiede Messwerte des identischen Tests -> Äquivalenzhypothese, gleicher Test

2) Unterschiede Messwerte, 1 Person, mehrere Tests -> Äquivalenzhypothese, verschiedene Tests

3) Unterschiede Messwerte, 1 Person, mehrere Tests, unterschiedliche Konstrukte -> Regressionshypothese, verschiedene Tests

alpha- und beta-Fehler

alpha-Fehler, Fehler 1. Art, Entscheidung für H1, obwohl H0 gilt.

beta-Fehler, Fehler 2. Art, Entscheidung für H0, obwohl H1 gilt.

-> beta-Fehler-Wahrscheinlichkeit nur bei spezifischer H1 bestimmbar.

Solomon-Viergruppen-Plan

Gruppe 1 Pretest - Treatment - Posttest -> klassische Experimentalgruppe, PT1 = f (T, P, Z)

Gruppe 2 Pretest - Posttest -> Kontrollgruppe, PT2 = f (P, Z)

Gruppe 3 Treatment - Posttest -> One-Shot-Case, PT3 = f (T, Z)

Gruppe 4 Posttest, PT4 (Z)

Experimentelle Untersuchungen

...haben eine höhere interne Validität als quasiexperimentelle Untersuchungen.

Kombination der Untersuchungsarten

- experimentell-Feld -> hohe interne & externe V. (Königsweg)

- experimentell-Labor -> hohe interne, niedrige externe V.

- quasiexp.-Feld -> niedrige interne, hohe externe V.

- quasiexp.-Labor -> niedrige interne & externe V.

Signifikanztests bei Unterschiedshypothesen

Verteilungsfrei:

- Nominalskala -> Chi²-Test

- Ordinalskala -> Mann-Whitney-U-Test (bei unabhängigen Stichproben)

Parametrische Tests (verteilungsgebunden):

- Intervall-/ Verhältnisskala

-> 1 Stichprobe -> 1-SP-t/z-Test

-> 2 Stichproben -> 2-SP-t/z-Test

-> > 2 Stichproben -> Varianzanalyse

Interne Validität in Interdepenzanalysen gering. Welche Maßnahmen?

- Crossed-lagged-Panel

- Partialkorrelation

- Pfadanalyse, SEM (Detailanalyse vn Wirkungspfaden)

Gefährdung der externalen Validität

- magelnde instrumentelle V.

- Stichprobenfehler

- experimentelle Reaktivität

- Pretesteffekte

- Hawthorne-Effekte

Zusätzliche Confunder durch Kontrollgruppen im Feld

- empärte Demoralisierung

- kompensatorischer Wettstreit

- kompensatorischer Ausgleich (Versuchsleiter)

- Treatmentdiffusion

Gefährdung interner Validität

- externe zeitliche Einflüsse

- Reifungsprozesse

- Testübung

- mangelnde instrumentelle Reliabilität

- statistische Regressionseffekte

- Selektionseffekte

- experimentelle Mortalität

Hypothesenprüfende Untersuchungen

...testen Annahmen über Zusammenhänge, Unterschiede und Veränderungen ausgewählter Merkmale bei bestimmten Populationen

Eigenschaften der einzelnen Skalenniveaus

Nominalskala: Modalwert

Ordinalskala: Rangordnung der Zahlen, Modalwert, Median

Intervall-/Verhältnisskala: Differenzen/ Verhältnisse der Zahlen, Modalwert, Median, Mittelwert