Diagnostik I
..
..
Set of flashcards Details
Flashcards | 120 |
---|---|
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 14.03.2018 / 08.08.2018 |
Weblink |
https://card2brain.ch/box/20180314_diagnostik_i
|
Embed |
<iframe src="https://card2brain.ch/box/20180314_diagnostik_i/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Kriteriumsvalidität
— Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten der Testperson innerhalb der Testsituation erfolgreich auf ein «Kriterium», nämlich auf ein Verhalten ausserhalb der Testsituation, geschlossen werden kann
- praktische Anwendbarkeit eines Tests für bestimmte Vorhersagen
- es kann auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium geschlossen werden (Korrelationsschluss)
- Hauptziel: extrapolierende Interpretation der Testergebnisse, dafür werden praktisch relevante externe Kriterien benötigt
- wichtig: sorgfältige und gut begründete Auswahl der Außenkriterien
- zeitliche Verfügbarkeit der Kriterien
- Übereinstimmungsvalidität (concurrent/konkurrente Validität) — Diagnose
- Vorhersagevalidität (prognostische, prädiktive V.) — Prognose im Vordergrund -> Zukunft
- retrospektive Validität (postdiktive V.) — von Verhalten jetzt auf Vergangenheit schliessen, etwas verstehen!
- ökonomische Entscheidung
- inkrementelle Validität
Übereinstimmungsvalidität (concurrent/konkurrente Validität)
- krit val
- zwei zeitgleiche Messungen einer Vp (Test-Score und Kriteriums-Score)
- Diagnose steht im Vordergrund
- Beispiel: Inventory to Diagnose Depression (IDD)
- Diagnose der Major Depression und Schätzung der Prävalenz in der allgemeinen Bevölkerung
- Selbsteinschätzungsskala mit 22 Items. Items um Symptome und deren Dauer zu definieren
- Belege für Kriteriumsvalidität: Übereinstimmung (hohe Korrelation) mit anderen Depressionsskalen
—> hohe Korrelation mit anderen Tests
Vorhersagevalidität (prognostische, prädiktive V.)
- zwei Messungen, erst Test-Score, später Messung des Kriteriums
- Prognose steht im Vordergrund, Test-Score soll Kriterium vorhersagen
- Beispiel: Numerus clausus, zwei definierte Erfolgskriterien
- Studienplätze sollen an diejenigen vergeben werden, die
- in möglichst kurzer Zeit das Studium absolvieren
- das Studium in guter Qualität abschliessen
- je höher die Testwerte, desto eher wird die erste Prüfung bestanden
- Studienplätze sollen an diejenigen vergeben werden, die
Krit. Validität
Retrospektive Validität (postdiktive V.)
Ein Kriterium in der Vergangenheit "vorhersagen"
- Test-Score soll retrospektiv Verhalten „voraussagen“
- Erklärung steht im Vordergrund
- Beispiel: Intelligenz-Testscore im Erwachsenenalter um Schulnoten zu erklären
- Soziales Engagement-Testscore um frühere Vereinsaktivität zu erklären
Inkrementelle Validität
- Definition: Ausmass, in dem die Vorhersage des praktisch relevanten externen Kriteriums verbessert werden kann, wenn zusätzlich Testaufgaben oder Testskalen zu den bereits existierenden hinzugenommen werden (Abgrenzung zu Reliabilität!).
- ökonomische Entscheidung ob man anderen Test hinzuziehen soll
- nicht zeitlich wie bei anderen
- bringt ein Kriterium zusätzlichen Nutzen?
- Frage, ob es sinnvoll ist, bei mehreren Prädiktoren noch einen neuen Test anzuwenden, oder ob dieser keinen Gewinn in Bezug auf die Vorhersage bringt
- Beispiel — vorhersage der Arbeitsleitung durch Kognitive Fähigkeiten, Ehrlichkeit, Gewissenhaftigkeit und TIP (Team Player Inventory)
- Modellzusammenfassung R-Quadrat .64 >> Erklären gemeinsam 60%
- Aufgeteilte Analyse >> Koeffizienten
- Kognitive .001
- Ehrlichkeit .231
- Gewissenhaftigkeit .185
- TPI .016
- Nur 2 der Merkmale tragen signifikant zu der Erklärung bei, die anderen könnte man ev. streichen
- Aufgeteilte Analyse >> Koeffizienten
- Modellzusammenfassung R-Quadrat .64 >> Erklären gemeinsam 60%
Krit. Validität
Korrektur für Unreliabilität
- die Korrelation zweier Variablen ist durch die jeweiligen Reliabilitäten eingeschränkt
- Korrelation zwischen 2 Variablen ist eingeschränkt durch die Reliabilitäten eines Tests. Ist ein Test weniger reliabel schränkt dies die mögliche Korrelation die ich kriegen könnte ein
>> Eine Wahre Beziehung zwischen Test und Kriterium kann übersehen werden, wenn die Tests unreliabel sind >> Das heisst Test muss angepasst werden
- rmax = √ rtt1 * rtt2
- rmax = Maximale Korrelation zwischen 2 Variablen
- rt1 = Reliabilität der ersten Variable oder Tests
- rtt2 = Reliabilität der zweiten Var. oder Test
Minderungskorrektur
Krit. Validität!
- Berechnung, wie hoch die Korrelation zwischen zwei Variablen wäre, wenn der Test keinen Messfehler hätte
rmind einfach: einfache Minderungskorrektur, angenommene Messfehlerfreiheit, gegeben: eine Korrelation und ein Reliabilitätskoeffizient (Korrelation zwischen Test x und y und Reliabilitätskoeffizient eines Tests)
rmind doppelt: doppelte Minderungskorrektur, gegeben: Korrelation und zwei Reliabilitätskoeffizienten (Korrelation zwischen Test x und y, Reliabilitätskoeffizient von Test x und Reliabilitätskoeffizient von Test y)
rmind. einfach = rxy / √rxy
- rxy = Korrelation Test x mit Test y
Beispiel: Die Korrelationen zwischen dem CES-D und den klinischen Beurteilungen von Depression war .53; die Reliabilität des CES-D war .70. Wie wäre die tatsächliche Korrelation zwischen CES-D und klinischer Beurteilung wenn keine Messfehler vorhanden wären und...
a)...die klinische Beurteilung ohnehin (angenommen) fehlerfrei wäre?
rmind. einfach = .53 / √.70 = .63
—> Geschätzte Korrelation zwischen Depression und der klinischen Fähigkeit steigt mit der Korrektur von .53 auf .63 bzw .68
Krit Validität
Korrektur eingeschränkter Range (Streuungsrestriktion)
- Beispiel: schriftliche Fahrprüfung, Voraussage der Unfälle im ersten Jahr nach der Prüfung
- 30 Personen machen die Prüfung (Annahme, dass jeder einen Führerschein bekommt)
- nach Test bekommen nur diejenigen den Führerschein, die einen Testwert über 80 haben
>> Wenn man alle Personen anschaut gibt es eine Korrelation zwischen Testscore und Unfällen
>> Wenn man nur die mit über 80 anschaut gibt es keine Korrelation mehr!
- Fazit — durch den eingeschränkten Bereich (Streuung/Varianz) können mögliche Korrelationen übersehen werden
Weitere Überlegungen Kriteriumsvalididät
Stichprobengrösse und Testbias / Fairness und Teaching to the test
Stichprobengröße
- je kleiner die Stichprobe, desto wahrscheinlicher der Einfluss der Zufallsvarianz
- Folge: Cross-Validation-Studie (Kreuz-Validierung) >> Man muss selbe Erhebung an einem anderen Sample machen um zu schauen ob sie richtig sind
Test-Bias und Fairness
- Tests können für verschiedene Personengruppen unterschiedlich schwierig sein und zu einer systematischen Benachteiligung führen
- Bsp kulturfreie Tests — Einfluss von Vertrautheit mit Material und Lesefähigkeit auf IQ Tests >> oft Fähigkeiten von Personen mit anderem kulturellen Hintergrund unterschätzt
Teaching to the test
- Validität gefährdet, wenn gezielt auf den Test hingearbeitet wird (Testitems erfassen eigentlich nur Stichproben von Wissensinhalten) >> Lernen wie man Test löst und nicht Wissen
- Bsp. Test zur Evaluation des Bildungssystems: falls der Test regelmässig eingesetzt wird, besteht die Gefahr, dass nicht mehr Wissensinhalte geprüft werden, sondern wie gut die Schüler auf den Test vorbereitet wurden
- gefährdet Kriteriumsvalidität
Weitere Überlegungen Kriteriumsvalididät
multiple Kriterien und partielle Inkompatibilität zwischen Reliabilität und Validität
multiple Kriterien
- Variablen, die man voraussagen will, sind oft multivariat
- Entscheidung nötig, welche externen Kriterien am wichtigsten sind
- in diagnostischen Situationen sind die Auswahl und Fragestellung der (Aussen-) Kriterien genauso wichtig wie die Entwicklung der Tests mit denen man sie misst
- partielle Inkompatibilität zwischen Reliabilität und Validität
- grosse Homogenität = hohe Reliabilität, aber nicht unbedingt hohe Validität
- heterogene Tests können hohe praktische Validität haben, aber Gefahr niedriger Reliabilität
- Annäherungslösung: Kombination homogener Subtests für ein heterogenes Konstrukt zu einer Testbatterie, die insgesamt die Validität sichert, während die Einzelskalen die Reliabilität sichern
Konstruktvalidität Definition
Konstruktvalidität als Prozess
— Definition: Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte gestützt wird, die sowohl die Testergebnisse selbst als auch die Zusammenhänge der Testwerte mit anderen Variablen erklären.
- wichtigstes Konzept der Validität, ist der Kriteriums- und Inhaltsvalidität übergeordnet bzw. schließt sie mit ein
- 3 Kernaspekte
- Konstruktvalidität als iterativer Prozess — Schrittweise Annäherung, um zu beweisen, dass das Konstrukt ist was es ist
- konvergente / divergente Konstruktvalidität — Verbindung /Abgrenzung von anderen Konstrukten
- nomologisches Netz — System von Beziehungen zw. Variablen und Konstrukten
Konstruktvalidität als Prozess
- empirischer sozialwissenschaftlicher Ansatz und hypothetisch-deduktive Vorgehensweise
- Konstrukt definieren
- Instrumente / Verfahren entwickeln — Fragebogen, Interview, Experiment
- Beziehungen zu anderen Tests/Konstrukten zeigen
- prüfen, ob der Test Verhalten bzw. psychische Prozesse vorhersagen kann
>> Konstruktvalidität als kontinuierlicher interativer Prozess
„ no criterion or universe of content is accepted as entirely adequate to define the quality to be measured“
Konvergente Konstruktvalidität
- Übereinstimmung mit Ergebnissen von Tests für gleiche oder ähnliche Merkmale
- wenn man verschiedene Masse hat für ein Konstrukt müssen die konvergieren
- ähnlich wie Kriteriumsvalidität, aber hier bekommt Test / Konstrukt die Bedeutung durch Assoziation mit anderen Variablen
- Messen durch
- Korrelation mit anderen Massen, die dasselbe messen
- Relationen zu Variablen, die mit dem Konstrukt zusammenhängen sollten
- erwarteter Veränderungen bei Eingriff, Behandlung, Manipulation
Divergente/diskriminante Konstruktvalidität
- keine oder niedrige Korrelation mit Variablen/Tests, die ein anderes Konstrukt messen (auch keine negative!)
- Ziel: Abgrenzung von anderen Merkmalen, nicht nur konstruktfern, sondern auch konstruktnahen
Konstruktvalidität
Nomologisches Netz
- Verhältnis Theorie – Beobachtung
- Angaben über Beziehungen zwischen Konstrukten / Variablen
- Bestandteile eines nomologischen Netzes
- Theorie über latente Konstrukte
- beobachtete Variablen, über die man die erwarteten Zusammenhänge sucht
- Korrespondenzregeln > Beziehung Theorie und Beobachtung
- Vorgehen
- Theorie und Literatur --> Beziehungen angeben
- anhand Theorie überprüfbare Hypothesen ableiten
- Überprüfung / Nachweis
- Bestätigung vs Falsifizierung — Suche nach Bestätigung der Übereinstimmung von Theorie und Beobachtung (empirischen Befunden)
- Inkonsistenz zwischen Theorie und Beobachtung: Fehler in Annahmen (Axiomen) oder verwendeten Testverfahren
>> iterativer Prozess, Konstruktvalidität kann nie endgültig belegt werde
Multitrait-Mutlimethod MMTMM - Analysen
Campbell und Fiske -- Grundvoraussetzung von Konstruktvalidität = konvergente und diskriminante / divergente Validität >> MMT Ansatz
- Methode zur Überprüfung der Konstruktvalidität
- Grundidee: Messungen von verschiedenen Konstrukten/Merkmalen sollen weniger miteinander korrelieren als Messungen von gleichen Konstrukten (auch, wenn sie mit verschiedenen Methoden gemessen wurden)
- Ziel — Korrelationen, welchen Methodeneinflüssen zuzuschreiben sind, nicht als Merkmalkonvergenz interpretieren >> Zwei Dinge die mit Fragebogen gemessen werden, korrelieren eher
- konvergente Validität/Merkmalskonvergenz: Korrelation zwischen den Messungen desselben Konstruktes mit verschiedenen Methoden soll hoch sein (= Merkmalskonvergenz)
- diskriminante Validität: liegt vor, wenn Messungen verschiedener Konstrukte mit derselben Methode nicht oder nur gering miteinander korrelieren
- zwischen inhaltlich unterschiedlichen Konstrukten innerhalb einer Methode und zwischen Methoden
Konvergent — bedeutet gemeinsame, wahre Faktorvarianz, d.h. hohe Korrelation über Messungen des gleichen Merkmals über verschiedene Methoden Hinweg
Diskriminent — bedeutet, dass verschiedene Merkmale weniger miteinander korrelieren als die konvergenten Validitäten, selbst wenn die gleiche Methode angewendet wird
MMTM Ansatz
Methodeneffekte
Einfluss einer bestimmten Methode, d.h Korrelation zwischen Merkmalen werden künstlich erhöht; mögliche alternative Erklärung für beobachtete Zusammenhänge
- man will sie ausschliessen/ kontrollieren/ herauspartialisieren
Quellen der Methodenvarianz
- Messinstrumente (Method) Zusammenhänge stärker, falls die gleiche Methode gewählt >> Kontrolle mit Multitrait-Multimethod-Analyse
- Beurteiler (Informant) Beurteiler nimmt systematisch Einfluss auf Beziehung zwischen Merkmalen nimmt >> Kontrolle mit Multitrait-Multiinformant-Analyse
- Kontext (Occasion) Bias aufgrund von verschiedener Situationen (Bsp. Wetter) >> Kontrolle mit Multitrait-Multioccasion-Analyse
Inferenzstatistische Verfahren bezüglich internaler Struktur (Konstruktvalidität)
1. Struktursuchende Vorgehensweise (induktiv)
2. Strukturprüfende Vorgehensweise (deduktiv)
Struktursuchende Vorgehensweise (induktiv)
- Gewinnung von Hypothesen über Ein- bzw. Mehrdimensionalität der Merkmalsstruktur
—> exploratorische Faktorenanalyse (EFA)
Strukturprüfende Vorgehensweise (deduktiv)
- von Theorie ausgehend
- gefundene Strukturen an neuen Datensätzen überprüfen (nur auf Basis von Testmodellen mit latenten Variablen/Konstrukten möglich)
—> konfirmatorische Faktorenanaylse (CFA), MTMM-Analyse oder IRT
Faktorenanalyse
Definition -- Faktor im faktorenanalytischen Sinn ist eine hypothetische Grösse, die das Zustandekommen von Korrelationen erklären soll.
- Struktur eines Tests wird im Rahmen der Konstruktvalidierung oft mittels Faktorenanalyse überprüft
- Begriff FA bezeichnet eine Gruppe von multivariaten Analyseverfahren
- Ziele der FA
- Datenreduktion: möglichst viel gemeinsame Varianz der Variablen durch möglichst wenige Faktoren erklären
- Definition der Dimensionen
- Überprüfung der Konstruktvalidität (nur Struktur)
- Fragen der FA
- wieviele latente Variablen/Konstrukte? wieviel Varianz wird erklärt? wie soll man Dimensionen definieren? mit welchen Faktoren/Variablen korreliert ein Test?
Exploratorische Faktorenanalyse (EFA)
Aufgrund der Daten Faktoren bestimmen
- struktursuchende Vorgehensweise
- hypothesengenerierendes Verfahren (induktiv)
- wird angewendet, wenn keine Hypothesen über Anzahl Faktoren und deren Beziehungen bestehen
- Ablaufschritte EFA
- Extraktionsmethode wählen
- Abbruchkriterium wählen (Anzahl Faktoren bestimmen)
- Faktorenrotation bestimmen
- Faktoren interpretieren
Grundgedanke FA
- Zerlegung einer standardisierten Messung zvi in Linearkombinationen aus Faktorladungen λik, gewichteten Faktorwerten fkv und Fehlerkomponente εvi
die Faktorladungen λ können als Korrelationskoeffizienten zwischen der manifesten Variable und dem Faktor interpretiert werden >> Hohe Ladung auf Faktor = Hohe Merkmalsausprägung
Grundbegriffe Exploratorischer Faktorenanalyse EFA
Ladung / Eigenwert / Kommunalität
- Ladung λ — entspricht der Stärke des Zusammenhangs zwischen Faktor und Variable
- quadrierte Ladung (λ2) widerspiegelt den gemeinsamen Varianzanteil zwischen Faktor und Variable ( analog r2)
- bedeutungsvolle Ladung ab .30
- Eigenwert Eig — aufgeklärte Varianz durch einen Faktor über alle Items/Variablen
- Summe der quadrierten Ladungen innerhalb eines Faktors (Tabelle: Spalten = quadrierte Ladungen eines Faktors zusammenzählen)
- wie viel Varianz wird von einem Faktor erklärt
- datenreduzierender Zweck erfüllt, wenn Eigenwert > 1
- dann erklärt Faktor mehr als einzelne Variable >> Wir wollen ja weniger Daten haben als zuvor
- Beispiel: Eigenwert / Anzahl Items * 100
- 6 / 10 * 100 = 60 % erklärte Varianz in diesem Faktor
- Summe der quadrierten Ladungen innerhalb eines Faktors (Tabelle: Spalten = quadrierte Ladungen eines Faktors zusammenzählen)
- Kommunalität h2 — aufgeklärte Varianz der Variable durch die extrahierten q Faktoren
- Summe der quadrierten Ladungen eines Items über alle Faktoren (Tabelle: Zeilen = quadrierte Ladungen eines Items zusammenzählen)
- auf Itemebene: wieviel Varianz im Item erklären die q Faktoren?
- niedrige Item-Kommunalität/Item nicht gut, wenn h2 < .20
Die Summe der Eigenwerte ist immer gleich der Summe der Kommunalitäten!
Ablaufschritte EFA
1. Extraktionsmethode wählen
- Ausgangspunkt: Korrelationsmatrizen
- Voraussetzungen: Normalverteilung, keine Ausreisser, kein eingeschränkter Range, relativ großes Sample
- bedeutendste Verfahren zur Faktorenextraktion:
- Hauptkomponentenanalyse (PCA, principal components analysis)
- Ziel — Varianzstärkste Repräsentanten den Information in den Daten zu erhalten
- Ziel — Varianzstärkste Repräsentanten den Information in den Daten zu erhalten
- Hauptachsenanalyse (PFA, principal axes factor analysis)
- Ziel — latente Variablen (Faktoren) zu identifizieren, die Beziehungsmuster zwischen beobachteten Variablen möglichst vollständig erklären
- Ziel — latente Variablen (Faktoren) zu identifizieren, die Beziehungsmuster zwischen beobachteten Variablen möglichst vollständig erklären
- Hauptkomponentenanalyse (PCA, principal components analysis)
- Beide Verfahren unterscheiden sich vor allem hinsichtlich der Annahmen bezüglich der durch die Faktoren in den Variablen erklärbaren Varianz
- PCA versucht Gesamtvarianz zu erklären (mit Fehler), PFA nur die wahre
- Faktorenextraktion erfolgt nach dem Kriterium, dass jeder Faktor soviel Varianz in den untersuchten Variablen erklärt wie möglich >> erklärte Varianz und Fehlerterm
- Fehlerterm — ungeklärte Varianz aufgrund der Abbruchkriterien
Ablaufschritte EFA
2. Abbruchkriterium wählen (Anzahl Faktoren bestimmen)
- Kaiser-Kriterium
- alle Faktoren mit einem Eigenwert > 1 werden als bedeutsam betrachtet
- Problem: Anzahl relevanter Faktoren wird oft überschätzt, Bedeutung hängt von der Anzahl der Items ab
- bei 25 Items erklärt Faktor mit Eig 1 nur 4% >> 1/25 * 100 = 4
- bei 25 Items erklärt Faktor mit Eig 1 nur 4% >> 1/25 * 100 = 4
- Scree-Test
- alle Faktoren vor dem Knick (graphische Darstellung, Scree Plot) werden als relevant betrachtet
- Problem: nicht immer eindeutig
- Parallelanalyse
- Zufallswerte nutzen >> sind meine Daten grösser als der Zufall
- Faktoren, deren Eigenwert grösser ist als in der Parallelanalyse, werden als relevant betrachtet
- wenn Eigenwert kleiner als in der Parallelstichprobe: wahrscheinlich durch Zufall entstanden
- Problem: die verschiedenen Abbruchkriterien geben möglicherweise unterschiedliche Faktorenzahlen an
- unerklärte Varianz aufgrund der Abbruchkriterien: Fehlerterm (unberücksichtigte systematische Anteile und unsystematische Messfehler)
Ablaufschritte EFA
3. Faktorenrotation bestimmen
Ziel der Rotation: Erreichen einer Einfachstruktur, d. h. jede Variable lädt nur auf einem einzigen Faktor hoch (Primärladung) und hat auf den anderen Faktoren keine oder nur niedrige Ladungen (Sekundärladungen)
- orthogonale Rotation (90 Grad)
- Faktoren bleiben unkorreliert (sind unabhängig voneinander interpretierbar) - Varimax-Rotation am bekanntesten
- Anwendung
- wenn keine theoretische Annahme, dass Faktoren korrelieren
- wenn Hauptziel Datenreduktion
- oblique Rotation
- Faktoren werden korreliert
- Oblimin-Rotation am bekanntesten
- Anwendung, wenn theoretische Annahme, dass Faktoren korrelieren
Ablaufschritte EFA
4. Faktoren interpretieren/Faktorenbenennung
je nachdem, welche Items gemeinsam auf einem Faktor hoch laden, können den Faktoren Bezeichnungen zugeordnet werden
Beispiel: wenn Items wie
„Ich mache mir oft Sorgen...“
„Ich mache mir Gedanken darüber...“ „Ich befürchte, daß...“
„Ich habe Angst, daß...“
eine hohe Ladung auf einem Faktor zeigen, liegt es nahe, diesen mit Ängstlichkeit zu bezeichnen
Konfirmatorische Faktorenanalyse (CFA)
- strukturprüfende Vorgehensweise >> Faktoren werden vor der Analyse bestimmt
- hypothesenprüfendes Verfahren (deduktiv)
- wird angewendet, wenn Hypothesen über Anzahl Faktoren und deren Beziehungen bestehen - gehört zu Strukturgleichungsmodellen
- Datenreduktion theoriegeleitet, Faktoren werden vor Analyse bestimmt
- basiert auf Kovarianzmatrix
- Ziel: Übereinstimmung zwischen theoretischem Modell und empirischen Daten überprüfen (Modellfit)
- Vorteile gegenüber der EFA
- definierbar, welche Variablen auf welchem Faktor laden
- bestimmbar, welche Faktoren miteinander korrelieren und welche nicht
- Fehler müssen nicht als unkorreliert angenommen werden
- Modellfit mit statistischen Tests überprüfbar
- Anwendungsmöglichkeiten
- Übereinstimmung zwischen theoretischem Modell und empirischen Daten überprüfen
- Vergleich verschiedener konkurrierender (nested = Hierarchisch geschachtelt = gleiche Struktur haben) Modelle am selben Datensatz >> Welches ist das bessere Modell?
- Modellevaluation
- Badness of fit:
- X2-Test, Sollwert: möglichst klein
- Goodness of fit:
- CFI, Sollwert: > .95
- NFI und Goodness of fit (GFI), Sollwert: > .90
- Badness of fit:
Ablaufschritte der CFA
1. Modellspezifikation (& -identifikation):
- Anzahl Faktoren festlegen und welche Indikatoren auf welchem Faktor laden
- Hypothesen in Gleichungen umsetzen und als Pfaddiagramm darstellen (latente Var. mit Kreisen, beob. Var. mit Rechtecken)
- Modell ist identifiziert, wenn Anzahl der empirischen Varianzen und Kovarianzen der manifesten Indikatorvariablen grösser ist als Anzahl der zu schätzenden Parameter
Ablaufschritte der CFA
2. Methode der Parameterschätzung:
- unterschiedliche Schätzmethoden - zB Maximum Likelihood
- Ziel der Schätzung >> Parameter so bestimmen, dass empirische Varianzen und Kovarianzen möglichst gut reproduziert werden
Ablaufschritte der CFA
3. Modellevaluation:
- Fit Masse geben an, wie gut ein Modell den empirischen Daten übereinstimmt
- Fit - Masss und Akzeptabler Fit:
- X2-Test >> möglichst klein, möglichst nicht sig.,
- RMSEA >> <.08
- CFI >> >.95
- NFI >> >.90
- Modelldifferenztest ∆X2 >> sig ist gut!
- Vergleich von zwei hierarchisch geschachtelten Tests >> Welches ist besser?
Ablaufschritte der CFA
4. Modifikation des Modells:
Modifikationsindexe: Angaben, wie viel besser χ2 wäre, wenn an den Modell-Parametern etwas geändert wird
Überlegungen zu FA
EFA oder CFA?
- wenn Theorie über Zusammenhänge der Faktoren vorhanden, dann CFA (benötigt aber grosses Sample)
- Praxis: EFA gut genug
PCA vs. PFA: PCA nimmt an, dass Variablen messfehlerfrei (unwahrscheinlich).
Aber falls nur eine unterliegende Dimension erwartet, dann eher PCA; wenn mehrere Dimensionen, dann PFA
Rotation: orthogonal oder oblique?
- orthogonal, wenn Annahme, dass die Faktoren nicht korreliert sind
- oblique, wenn Annahme, dass Faktoren korreliert sind
- welche Stichprobengröße (Vpn)?
- je mehr Items, desto mehr Vpn
- CFA benötigt viel größere Stichprobe (> 200 Vpn)
- Sample muß auch repräsentativ sein
viele subjektive Entscheidungen
- beeinflussen Resultate, Interpretation, Benennung der Faktoren usw.
- Cross-Validation wichtig
- Items im Hinblick auf Faktorenbenennung prüfen
Klassische vs Probabilisitische Testtheorie
KTT
- Testergebnis entspricht direkt (mit Messfehler behaftet) dem Ausprägungsgrad des wahren Merkmals >> deterministische Beziehung
- Itemzusammenhänge werden analysiert (bleibt auf Messebene)
- Zusammenhänge zwischen Items und postuliert dass ein latentes konstrukt da sein muss
- Testwert entspricht dem Testscore (Schätzung Messfehler)
Probabilistische Testtheorie / Item-Response, IRT
- Ausgangslage:
- explizite Unterscheidung zwischen latenter Merkmalsebene und manifester Testebene
- Testergebnis lediglich Indikator für entsprechendes Merkmal
- IRT postuliert probabilisitsche Beziehung zwischen Itemantwort und Merkmalsausprägung (explizite Unterscheidung zwischen Merkmals- und Testebene
- Wahrscheinlichkeit von Itemantwortmuster [Indikator] wird bei gg. Fähigkeit/Merkmal analysiert
- Der Testwert stellt eine individuelle Schätzung des Personenparameters ξv dar
- Hauptunterschied zur KTT: bei der IRT kann eine hypothetisch festgelegte Funktionsform empirisch auf tatsächliches Vorliegen geprüft werden
Probabilistische Testtheorie (Item-Response-Theorie, IRT)
- - psychologisches Konstrukt beeinflußt Testverhalten, das Testverhalten wiederum die Testauswertung und darüber auch das psychologische Konstrukt
- - Testtheorien befassen sich mit der Frage, wie empirische Testwerte mit den zu messenden (tatsächlichen) Merkmalsausprägungen zusammenhängen
- - Testtheorien definieren Anforderungen, denen ein Test genügen muß, um von den empirischen Testwerten auf die tatsächliche Merkmalsausprägung schließen zu können
IRT --
Wie kommen die Antworten auf die Items zustande? Lassen Antworten Rückschlüsse auf Personenmerkmale zu?
Die Wahrscheinlichkeit, das Item zu lösen hängt von der Merkmalsausprägung ab (Fokus auf Antwortmuster)
Itemanalyse:
- itemcharakteristische Funktion (IC-Funktion, auch itemcharacteristic curve ICC): beschreibt in Abhängigkeit von der Merkmalsausprägung die Wahrscheinlichkeit, ein Item zu lösen
- Lösewahrscheinlichkeit hängt ab von
1. Personenparameter
2. Itemparameter
Grundidee - Wahrscheinlichkeit für richtiges Lösen eines Testitems (Verhalten) als Funktion von Personenmerkmal ξv und Situationsmerkmal (Itemschwierigkeitsparameter σi) >>p(xvi= 1) = ƒ(ξv,σi)
Test-Score: Schwierigkeitsgrad der Items, die eine Person lösen kann - wozu dient die IRT?
- Ergänzung, nicht Alternative zur KTT - Verbesserung der Konstruktvalidität, da
- Itemhomogenität empirisch überprüfbar >> FUNKTIONIERT NICHT MIT HETEROGENEN KONSTRUKTEN
- Parameterschätzungen stichprobenunabhängig
IRT
Itemhomogenität + Lokale stochastische Unabhängigkeit
liegt im Sinne der IRT vor, wenn alle Items dieselbe latente Variable/Konstrukt messen >> Eindimensionalität = NUR EIN KONSTRUKT
- latente Variable als Ursache für die Korrelationen zwischen den manifesten Variablen
- notwendige Bedingung: Vorliegen mehrerer untereinander korrelierender manifester Variablen/Items
>> Problem: Korrelationen könnten nicht durch die latente Variable verursacht worden sein, sondern durch etwas anderes - hinreichende Bedingung: Itemhomogenität bezüglich der latenten Variable
Überprüfung der Itemhomogenität: lokale stochastische Unabhängigkeit
Wie kann man von mehreren manifesten Variablen (die die Ausprägungen der manifesten Variablen verursachen) auf eine dahinterliegende latente Variable schliessen?
>> Lokale stochastische Unabhängigkeit
- Annahme: es handelt sich um genau eine latente Variable
- Diese (zunächst unbekannte) latente Variable ist für das Zustandekommen der Antworten auf bestimmte Items „verantwortlich“, und „produziert“ daher deren beobachtbaren Zusammenhänge (Korrelationen)
Die Zusammenhänge verschwinden (Nullkorrelationen), wenn man diese Variable / Ursache ausschaltet (konstant hält
Lokale stochastische Unabhängigkeit: Die manifesten Variablen korrelieren nicht mehr untereinander, wenn die latente Variable auf einem bestimmten Wert konstant gehalten wird (latente Variable hat keine Varianz mehr)
Überprüfung der lokalen stochastischen Unabhängigkeit
Lokale stochastische Unabhängigkeit: Die manifesten Variablen korrelieren nicht mehr untereinander, wenn die latente Variable auf einem bestimmten Wert konstant gehalten wird (latente Variable hat keine Varianz mehr)
Multiplikationstheorem für unabhängige Ereignisse
>> Der erste Münzwurf ist unabhängig vom zweiten Münzwurf
- bei unabhängigen Ereignissen ist die Verbundwahrscheinlichkeit der Ereignisse (Wahrscheinlichkeit, dass bei gegebener Merkmalsausprägung ξ beide Items i und j bejaht werden) gleich dem Produkt der Einzelwahrscheinlichkeiten der Ereignisse
Bei abhängigen Ereignissen: Verbundwahrscheinlichkeit ist grösser als die Multiplikation der Einzelwahrscheinlichkeit.
[Dh. Lösen von Item i erhöht Wahrscheinlichkeit für Lösen von Item j]
IRT-Modelle
Latent-Trait Modelle
Latent-Class Modelle
- - Latent-Class-Modelle: qualitative kategoriale latente Klassen zur Charakterisierung von Personentypen
- - Latent-Trait-Modelle: quantitative kontinuierliche latente Variablen
- - deterministische Modelle
- Antwortverhalten wird vollständig durch Item- und Personenparameter bestimmt
- probabilistische Modelle
- stochastische Beziehung zwischen Antwortverhalten und Item- und Personenparameter
- stochastische Beziehung zwischen Antwortverhalten und Item- und Personenparameter
- deterministische IC-Funktion (eckige Kurve) und probabilistische IC-Funktion (kontinuierliche Kurve)
- - deterministische Modelle
IC-Funktion (itemcharakteristische Funktion, auch itemcharacteristic curve, ICC)
Darstellung der Beziehung zwischen manifestem Antwortverhalten und der Ausprägung der latenten Traits als mathematische Gleichung
IC-Funktion:
- Lösungswahrscheinlichkeit P(xvi = 1) in Abhängigkeit des Schwierigkeitsparameters des Items (σi) und der individuellen Ausprägung der latenten Variable ξv (Personenparameter)
- je höher Merkmalsaufprägung desto höher personenparameter und somit die wahrscheinlichkeit
Jeder Ausprägung der latenten Variable ξ wird eine Wahrscheinlichkeit (P(xvi)) zugeordnet, mit der eine Person ein Item lösen wird.
Probabilistische Modelle (nach Anzahl Parameter)
- Einparameter-logistisches (1PL-)Modell/Rasch-Modell (dichotome Items) WIR SCHAUEN NUR DAS AN
Lösungswahrscheinlichkeit einer Person mit Personenparameter ξ in Abhängigkeit vom Itemschwierigkeitsparameter σ
- Zweiparameter-logistisches (2PL-)Modell/Birnbaum-Modell
Lösungswahrscheinlichkeit einer Person mit Personenparameter ξ in Abhängigkeit vom Itemschwierigkeitsparameter σ und Itemdiskriminationsparameter λ
- Dreiparameter-logistisches (3PL-)Modell/Rate-Modell von Birnbaum
Lösungswahrscheinlichkeit einer Person mit Personenparameter ξ in Abhängigkeit vom Itemschwierigkeitsparameter σ, Itemdiskriminationsparameter λ und Rateparameter ρ
Rasch Modell (Einparameter-logistisches (1PL-)Modell, dichotome Items)
- - einfachstes und vorteilhaftestes Modell
- - Lösungswahrscheinlichkeit P(xvi) einer Person mit Personenparameter ξ in Abhängigkeit vomItemschwierigkeitsparameter σi
>> Je stärker ξ die σ übertrifft, desto grösser ist die Wahrscheinlichkeit, das Item zu lösen (bzw. symptomatisch zu beantworten).
Vorgehensweise
- parameterschätzung
- modelltest
Merkmale des Rasch-Modells:
- Itemschwierigkeitsparameter,
- Merkmalsausprägung (ξv), bei der die Lösungswahrscheinlichkeit für Item i 0.5 beträgt. An dieser Stelle hat die Kurve ihren Wendepunkt.
- Merkmale werden von Links nach Rechts schwieriger
- Itemdiskriminationsparameter (konstant = 1),
- Mass für Sensitivität der Items für Merkmalsunterschiede (vgl. Trennschärfen in Itemanalyse)
- Rasch–Modell: Itemdiskriminationsparameter konstant (λi=1)
- spezifische Objektivität
- Rasch-Modell ist stichprobenunabhängi
- Rasch-homogene Items haben alle dieselbe Form (Itemdiskriminationsparameter konstant = 1), aber parallele Verschiebung bzgl. der ξ-Achse (unterschiedliche Schwierigkeitsparameter)
- spezifische Objektivität der Vergleiche
- 1. Schwierigkeitsunterschied δ zwischen zwei Items kann unabhängig davon festgestellt werden, ob einfache oder schwierige Items verwendet werden:
- Grundlage für adaptives Testen
- Vpn mit unterschiedlichen Items testbar und dennoch miteinander vergleichbar
Iteminformationsfunktion IRT
alle Items sind gleich effizient — nicht jedes Item gibt gleich viel information —> Iteminformationsfunktion
gibt an, wie hoch der Informationsgehalt eines Item i bzgl. der Diskrimination zwischen versch. Merkmalsausprägungen ist
je grösser die Steigung der IC- Funktion am Punkt der Merkmalsausprägung, desto höher der Gewinn an Informationnicht