M6 Grundlagen der Testkonstruktion 03421
Fragen zum Skript: Grundlagen psychologischer Testverfahren, Testkonstruktion von der Planung zum Entwurf, Itemanalyse, Skalenbildung (EFA, CFA), Evaluation psychologischer Testverfahren
Fragen zum Skript: Grundlagen psychologischer Testverfahren, Testkonstruktion von der Planung zum Entwurf, Itemanalyse, Skalenbildung (EFA, CFA), Evaluation psychologischer Testverfahren
Kartei Details
Karten | 85 |
---|---|
Lernende | 24 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 10.09.2013 / 26.08.2018 |
Weblink |
https://card2brain.ch/box/m6_grundlagen_der_testkonstruktion_03421
|
Einbinden |
<iframe src="https://card2brain.ch/box/m6_grundlagen_der_testkonstruktion_03421/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Faktorwerte
- genaue individuelle Ausprägungen auf den neu ermittleten Variablen berechnen (inklusive Nebenladung)
- gewichtete Kombination der Items, die zu den jeweiligen Faktoren beitragen
-> Koeffizientenmatrix der Faktorwerte (indirekt aus Daten berechnen)
-> Berechnung durch Regressionsrechnung
Kennzeichnende Aspekte des Linearen Strukturgleichungsmodelles (SEM)
- konfirmatorisch
- differenziert zwischen manifesten und latenten Variablen
- Analyse von Kovarianzmatrizen (Analyse von Korrelationen und Mittelwerten möglich)
- EFA, multiple Regression, Varianzanalyse, Pfadanalyse als Spezialfälle der SEM
- große Stichproben
- Signifikanztests spielen untergeordnete Rolle, wichtiger Gütekriterien
Darstellung in Pfaddiagrammen
- abhängige/ endogene latente Variablen innerhalb des Modells erklärt
- unabhängige/ exogene latente V. nicht erklärt
- latente Konstrukte als Elipsen, Schreibweise griech. Buchstaben
- Indikatorvaraiblen in Kästen, endogen (y) & exogen (x)
-Ausprägungen von Pfeilen werden von Programm geschätzt
Aufgabe einer SEM-Analyse
Gleichungssystem simultan auflösen:
- theoretische Randbedingungen für System definieren
- methodische Varianten
- Interpretation der Ergebnisse
1) Modellspezifikation: Parameterfixierung
- frei (post hoc frei berechnet)
- fix (z.B. Null oder Eins)
- beschränkt (Gleichheitsbeschränkungen, Ungleichheitsbeschränkungen)
2) Identifizierbarkeit des Modells: Gleichung
- unterindentifiziert: unendlich viele Lösungen
- gerade identifiziert: genau eine Lösung
- überidentifiziert: nur Näherungslösungen, Idealfall, mehr empirische Information als zu schätzende Parameter -> Freiheitsgrad (df)
4a) Ausgangsmatrix und Schätzalogrithmus: iterative Verfahren
Merkmale: multivariate Normalverteilung, postiv definitve Matrix, skaleninvariant & skalenfrei
- Maximum-Likelihood (ML): skaleninvariant & skalenfrei, multivariate Normalverteilung
- Generalized Least Square (GLS): eng mit ML verwandt, eher etwas schlechter
- Unweighted Least Square (ULS): skalenfrei, skaleninvarianz nicht gegeben
- Asymptotically Distribution Free (ADF): Gruppe von Methoden (WLS, DWLS, ERLS) skalenfrei, skaleninvariat, kaum Verteilungsannahmen aber große Stichprobe -> ALTERNATIVE ZUR ML, GERADE WENN KEINE NORMALVERTEILUNG vorliegt
4b) Modelltest: Schätzprobleme
- Nicht-Kovergenz: Wird direkt zurückgemeldet, Schätzlogarithmus konvergiert nicht
- Heywood-Cases: unzulässige Lösungen (technische Ursachen oder grobe Fehlspezifikation)
4b Modelltests: Fit-Indizes
-> Wenn Schätzung im zulässigen Bereich konvergiert, dann kann Güte der Lösung global evaluiert werden.
- Signifikanztests (Chi²-Test) (Ablehnung bei siginifikanten Befund, eher kleine Stichproben hilfreich)
- Fit-Indizes: nicht signifikante Tests als Hinweis auf exakten Modell-Fit -> Versuch das Ausmaß der Modellgüte in einem Index (0-1) zu quantifizieren
- Badness-of-Fit-Indizes: höhere Werte=schlechterer Fit
- Goodness-of-Fit-Indizes: hohe Werte=gute Passung
-> Fitindizes nicht unabhängig von Chi²-Test
Sensitivität und Spezifität
Sensitivität: RP/ (FN+RP) -> Anteil der richtig klassifizierten Personen unter allen Personen, die das Kriterium tatsächlich erfüllen.
Spezifität: RN/ (FP+RN) -> Anteil der richtig klassifizierten Personen, die das Kriterium nicht erfüllen.
Richtlinien mit Schwerpunkt Qualität
- Standards for Educational & Psychological Testing
- DIN 33430
- Principles for the Validation and Use of Personnel Selection Procedures
- Guidelines for Test Translation and Adaption
- International Guidelines on Computer-Based and Internet Delivered Testing
Beurteilungssysteme
- Buros-System
- COTAN-System
- TBS-TK
- DIN Screen
- Review Model for the Description and Evaluation of Psychological Tests
Wieso kann die Illustration von Interpretationen durch ausführliche Fallbeispiele Fehlschlüssel erhöhen?
Fallbeispiele können die Übergeneralisierung von Einzelfällen fördern
Reliabilitätsschätungen
- interne Konsistenz
- Retest-Reliabilität
- Paralleltestreliabilität
- Interrater-Reliabilität
Reliabilitä ist kein hinreichendes, aber..
...ein notwendiges Kriterium zur Bestimmung der Güte eines Tests.
Interne Konsistenz und Homogenität
I.K. ist kein gutes Maß für Homogenität, setzt diese aber voraus.
Cronbachs-alpha-Koeffizient
- Standardmaß der internen Konsistenz
- kann Reliabilität durch systematische Messfehler (soz. Erwünschtheit) überschätzen
- Varianz des Testitems, Anzahl der Testitems, Varianz des Gesamtwerts der Skala
COTAN-Testbeurteilungssystem
1. Niveau -> .80 (Einzellfall)
2. Niveau -> .70 (weniger wichtige Einzelfalldiagnostik)
3. Niveau -> .60 (Gruppenuntersuchung)
Dreifaltigkeitslehre
1) Inhaltsvalidität
2) Konstruktvalidität
3) Kriteriumsvalidität
Konvergente und diskriminante V. prüfen
- im einfachsten Fall bivariate Korrelation
-> Unterschätzung der latenten Korrelation, da Tests nicht perfekt reliabel sind
- Attenuations- oder Minderungskorrektur (einfach/ doppelt)
Reliabilitäts-Validitäts-Dilemma
Hohe Trennschärfe -> hoher Homogenität -> geringe Bandbreite des Konstrukts -> geringe Korrelation mit Außenkriterien
Multi-Trait-Multi-Method Matrix
- Prüfung der Konstruktvalidität
- Einfluss von Messerergebnisse von Einfluss der Methode trennen
- Monotrait-Monomethod -> Reliabilität
- Heterotrait-Monomethod & Heterotrait-Heteromethod -> diskriminante V.
- Monotrait-Heteromethod -> konvergente V. oder diskriminate V., wenn niedriger als Heterotrait
Konfirmatorische MTMM-Analyse
+ betrachtet auch latente Konstrukte
- Identifizierbarkeitsproblem
Effektstärke d
- bivariates Validitätsmaß
- Klassifikation von Personen in Gruppen (Diagnose depressiv vs. nicht depressiv)
- gibt Mittelwertsunterschiede in den Testwerten der beiden Gruppen in Einheiten der SD an
- d= (Mt1-Mt2)/ St.gesamt
-r & d lassen sich unmittelbar ineinander überführen
schwacher Effekt: r= .10; d= .20
mittlerer Effekt: r= .30; d= .50
starker Effekt: r= .50; d= .80
Methoden zur Kontrolle sozialer Erwünschtheit
- subtile Items
- forced-choice
- objektive Tests
- bogus pipeline (Lügendetektor) -> Hinweis auf verbesserte Validität
- Erwünschtheitsskala
Besonderheiten der Einzelfalldiagnostik
- strenge Anforderungen an Gütekriterien
- spezifische Standards für Vergleichbarkeit
- Messgenauigkeit
- COTAN-Beurteilung
1. Niveau N=300, r= .80
2. Niveau N=200, r =.70
3. Niveau N= 100, r= .60
Schätzung des durchschnittlichen Fehlers
- Äquivalenzhypothese & Standardmessfehler -> Annahme: beobachteter Wert ungefähr wahrer Wert, bei einzelnem Test
- Regressionshypothese & Standardschätzfehle
-> Konfidenzintervalle
Konfidenzintervalle
- geben mit festgelegter Wahrscheinlichkeit den Bereich an, in dem der wahre Wert der Testperson zu vermuten ist
-einseitig (z1-alpha) oder zweiseitig (z1-alpha/2) (Fragestellung)
- KI= X +/- SEx * z (Äquivalenz, beobachteter Wert)
- KI= t +/- SEt * z (Regression, geschätzter wahrer Wert)
Kritische Differenzen
Unterscheiden sich zwei Testwerte wirklich?
1) Unterschiede Messwerte des identischen Tests -> Äquivalenzhypothese, gleicher Test
2) Unterschiede Messwerte, 1 Person, mehrere Tests -> Äquivalenzhypothese, verschiedene Tests
3) Unterschiede Messwerte, 1 Person, mehrere Tests, unterschiedliche Konstrukte -> Regressionshypothese, verschiedene Tests
alpha- und beta-Fehler
alpha-Fehler, Fehler 1. Art, Entscheidung für H1, obwohl H0 gilt.
beta-Fehler, Fehler 2. Art, Entscheidung für H0, obwohl H1 gilt.
-> beta-Fehler-Wahrscheinlichkeit nur bei spezifischer H1 bestimmbar.
Solomon-Viergruppen-Plan
Gruppe 1 Pretest - Treatment - Posttest -> klassische Experimentalgruppe, PT1 = f (T, P, Z)
Gruppe 2 Pretest - Posttest -> Kontrollgruppe, PT2 = f (P, Z)
Gruppe 3 Treatment - Posttest -> One-Shot-Case, PT3 = f (T, Z)
Gruppe 4 Posttest, PT4 (Z)
Experimentelle Untersuchungen
...haben eine höhere interne Validität als quasiexperimentelle Untersuchungen.
Kombination der Untersuchungsarten
- experimentell-Feld -> hohe interne & externe V. (Königsweg)
- experimentell-Labor -> hohe interne, niedrige externe V.
- quasiexp.-Feld -> niedrige interne, hohe externe V.
- quasiexp.-Labor -> niedrige interne & externe V.
Signifikanztests bei Unterschiedshypothesen
Verteilungsfrei:
- Nominalskala -> Chi²-Test
- Ordinalskala -> Mann-Whitney-U-Test (bei unabhängigen Stichproben)
Parametrische Tests (verteilungsgebunden):
- Intervall-/ Verhältnisskala
-> 1 Stichprobe -> 1-SP-t/z-Test
-> 2 Stichproben -> 2-SP-t/z-Test
-> > 2 Stichproben -> Varianzanalyse
Interne Validität in Interdepenzanalysen gering. Welche Maßnahmen?
- Crossed-lagged-Panel
- Partialkorrelation
- Pfadanalyse, SEM (Detailanalyse vn Wirkungspfaden)
Gefährdung der externalen Validität
- magelnde instrumentelle V.
- Stichprobenfehler
- experimentelle Reaktivität
- Pretesteffekte
- Hawthorne-Effekte
Zusätzliche Confunder durch Kontrollgruppen im Feld
- empärte Demoralisierung
- kompensatorischer Wettstreit
- kompensatorischer Ausgleich (Versuchsleiter)
- Treatmentdiffusion
Gefährdung interner Validität
- externe zeitliche Einflüsse
- Reifungsprozesse
- Testübung
- mangelnde instrumentelle Reliabilität
- statistische Regressionseffekte
- Selektionseffekte
- experimentelle Mortalität
Hypothesenprüfende Untersuchungen
...testen Annahmen über Zusammenhänge, Unterschiede und Veränderungen ausgewählter Merkmale bei bestimmten Populationen
Eigenschaften der einzelnen Skalenniveaus
Nominalskala: Modalwert
Ordinalskala: Rangordnung der Zahlen, Modalwert, Median
Intervall-/Verhältnisskala: Differenzen/ Verhältnisse der Zahlen, Modalwert, Median, Mittelwert