Statistik
Klausurvorbereitung
Klausurvorbereitung
Kartei Details
Karten | 94 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 06.02.2025 / 11.02.2025 |
Weblink |
https://card2brain.ch/box/20250206_statistik
|
Einbinden |
<iframe src="https://card2brain.ch/box/20250206_statistik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Vorgehen HLM (basiert auf ML Schätzungen)
- Nullmodell (Random Intercept): enthält keine Prädiktoren, nur Regressionskonstante und Residuen auf Level 1 und 2
- Unterscheiden sich die Gruppen signifkant voneinander? Dazu wird die Intraklassenkorrelation (ICC) berechnet, wenn hoch - HLM nötig
- ICC: Zwischengruppenvarianz/ Gesamtvarianz
- Bildung weiterer Modelle durch Hinzunahme von Prädiktoren
- Random Intercept: Prädiktor auf Individuumsebene
- Gibt es individuelle Effekte, aber gleiche Steigung in allen Gruppen?
- Random Slope: individueller Effekt auf Gruppenebene
- Variiert die Steigung zwischen den Gruppen?
- Cross-Level Interactions: Prädiktor auf Gruppenebene
- wird der individuelle Effekt durch Gruppeneigenschaften moderiert?
- Random Intercept: Prädiktor auf Individuumsebene
Kennwerte HLM
- deviance: -2LL sollte möglichst klein sein
- AIC/ BIC: je kleiner, desto besser
- ICC: Varianz, die durch Gruppenunterschiede erklärt wird ab 0.10 HLM sinnvoll, ab 0.30 stark
Homoskedastizität
die Varianz der Residuen ist für alle Werte des Prädiktors/ der UV hinweg konstant
= gleichmäßige Fehlerstreuung
Press'S-Q
- Maß für die Vorhersagegenauigkeit eines Diskriminanzmodells
- hilft zu beurteilen, ob die Klassifikationsgenauigkeit des Modells signifikant besser als der Zufall ist
- Verglichen mit dem kritischen X^2-Wert: muss größer sein
Sphärizität / Zirkularitätsannahme
Die Kovarianzen zwischen den Daten der verschiedenen Messzeitpunkte müssen ähnlich sein
Teststärke
- Wkeit, dass ein in der Population tatsächlich vorhandener Effekt bei statistischer Testung entdeckt wird - wir also die H0 verwerfen.
- Verläuft gegenläufig zum beta-Fehler (1- beta)
Strukturmodell
Beziehungen zwischen latenten Variablen werden geprüft
Messmodell
Zusammenhänge zwischen latenten Faktoren und deren mainfesten Indikatoren werden definiert
KTT- Grundannahmen
- y= tau + e
- Messfehler ist unsystematisch:
- MW des Messfehlers ist 0
- keine Korrelation des Messfehlers und wahrer Wert
- keine Korrelation der Messfehler zweier Tests A und B
- keine Korrelation des Messfehlers von Test A mit wahrem Wert von Test B
welche 3 Annahmen können mittels SEM geprüft werden?
- Eindimensionalität
- gleiche Pfadgewichte
- gleiche Fehlervarianz
tau-kongenerische Modelle
- geprüft wird: Eindimensionalität
- wird die gemeinsame Varianz der Items in der latenten Variable erfasst?
essentiell tau-äquivalente Modelle
- es werden Eindimensionalität und gleiche Pfadgewichte geprüft
essentiell-tau-parallele Modelle
hier werden geprüft:
- eindimensionalität
- gleiche Pfadgewichte
- gleiche Fehlervarianz
IRT
- Schätzung latenter Personen- und Itemparameter
- ursprünglich dichotomoes Antwortformat
- nicht linearer Zusammenhang zwischen latentem Merkmal und manifestem Indikator
- Messfehler wird modelliert
Modelle der IRT
- Dichotomes Rasch-Modell: Items unterscheiden sich nur in Schwierigkeit
- Birnbaum-2PL Modell: unterschiedliche Steigungen für die einzelnen Items, vom Diskriminationsparameter abhängig
- Birnbaum- 3-PL: Erweiterung um Rate-Parameter
- in der Praxis: PTT nehmen
Winsorisieren
- es wird um den MW einer Stichprobe ein KI ermittelt
- dieses enthält 90% aller Werte
- alle Werte außerhalb dieses KIS werden als Ausreißer betrachtet und ersetzt
- Werte unter der 5% Grenze werden durch den Wert der unteren Grenze ersetzt
- Werte der oberen Grenze werden durch den Wert der oberen Grenze ersetzt
- Stichprobengröße bleibt erhalten
- aber die ersetzten Werte sind mit hoher Wkeit falsch
MCAR
- Fehlen von Daten ist über alle Beobachtungen hinweg völlig zufällig verteilt
- es gibt keine systematischen Muster/ Zusammenhänge mit den erhobenen Variablen oder der Variable selbst
- Fälle mit fehlenden Werten unterscheiden sich nicht von Fällen ohne fehlende Werte
- Datensatz mit vollständigen Daten ist eine Teilstichprobe des Gesamtdatensatzes
- somit liegt nur ein Verlust an statistischer Power vor, aber keine Verzerrung der statistischen Kennwerte
- sehr streng, da es in psychologischen Studien eigentlich immer mind. 1 Zusammenhang gibt
MAR
- das Auftreten eines fehlenden Wertes kann durch die Ausprägung in anderen Variablen vorhergesagt werden
- Personen mit vollständigen Daten unterscheiden sich somit von Personen mit unvollständigen Daten in weiteren Variablen
- dieser Unterschied kann anhand des Datensatzes erklärt werden
- es liegt eine Verzerrung in der Variablen mit fehlenden Werten vor, da das Auftreten dieser fehlenden Werte systematisch ist
- es gibt gute Ersetzungsverfahren, die die vorhandenen Zusammenhänge berücksichtigen
NRM
- das Auftreten eines fehlenden Wertes steht nur im Zusammenhang mit der Ausprägung der Person in genau dieser Variable
- es gibt keine weitere Variable im Datensatz, die eine Vorhersage dieses Fehlens erlaubt
- es liegt eine systematische Verzerrung der Daten
- jede Form von Ersetzung ist schwierig
Liegen mehr als 5% fehlende Werte vor, ...
... ist von den klassischen Verfahren im Umgang mit fehlenden Werten abzuraten. Bei großen Stichproben und nur einer geringen Anzahl an fehlenden Werte ist der Einfluss der Ersetzungsverfahren allerdings gering
Standardersetzungsalgortihmen und deren Probleme
- listenweiser Ausschluss: die Daten einer Person werden komplett aus allen Berechnungen ausgeschlossen. --> starke Reduktion der Stichprobe
- paarweiser Ausschluss: falls ein Wert fehlt, wird bei dieser Berechnung die Person ausgeschlossen --> führt zu sehr unterschiedlichen Teilstichproben (aber immerhin wird die maximale Information in den Daten verwendet)
- Mittelwertsersetzung: fehlender Wert wird durch VariablenMW ersetzt --> Unterschätzung von Varianzen und Kovarianzen
- Regressionsimputation: ersetzt fehlende Werte mithilfe einer Regressionsgleichung, die im vollständigen Datensatz ermittelt wird --> Überschätzung von Varianzen und Kovarianzen
Testung von MCAR
- kann nicht getestet werden
- kann nur überprüft werden, ob eine notwendige, aber nicht hinreichende Bedingung für MCAR vorliegt
- wird dieser Test signifikant, kann nicht automatisch von MCAR ausgegangen werden
- MAR liegt in der Praxis häufiger vor
- Ersetzungsverfahren vergleichbar mit VA und Kovarianzanalyse (Berücksichtigung von Kovariaten)
multiple Imputation
- jeder fehlender Wert wird mehrfach ersetzt
- es werden mehrere vollständige Datensätze erstellt, in denen die fehlenden Werte auf unterschiedliche Weise geschätzt werden
- diese verschiedenen Datensätze werden dann zusammengeführt, um eine robuste Schätzung zu erhalten, die die Unsicherheit aufgrund der fehlenden Daten berücksichtigt
- grundlegende Überlegung: MW der Parameter aus den Imputationen ist der beste Schätzer des wahren Wertes
- ABER: jede Ersetzung ist auch nur eine Schätzung, die wiederum Fehler beinhaltet --> Wie groß ist also die Unsicherheit bei der Ersetzung der fehlenden Werte?
- dazu sollten Varianzen innerhalb und zwischen den Imputationen beachtet werden
Varianzen innerhalb von Imputationen
- Maß dafür, wie stabil die Schätzungen der fehlenden Daten sind
- ermittelt über U
- es wird der MW der Standardfehler ermittelt
- wie stark weicht eine einzelne Imputation von diesem MW ab?
Varianzen zwischen Imputationen
- Kennwert für die Unsicherheit des Datensatzes
- Variation in den Schätzungen der fehlenden Werte
- im Idealfall liegt zwischen den Imputationen wenig/ keine Varianz vor --> damit wären die imputierten Werte ähnlich und es besteht weniger Unsicherheit
- bei hoher Varianz: viel Unsicherheit
- ermittelt über B
Parameter, der sowohl Varanz innerhalb als auch zwischen Imputationen berücksichtigt
- die Unsicherheit zwischen und innerhalb von Imputationen werden zu T zusammengefasst
- Standardfehler der Parameterschätzung ergibt sich aus der Wurzel aus T
- dieser Standardfehler zeigt, wie genau die Schätzung des Parameters ist
- in einer Publikation: MW, Standardfehler und mittleres B-Gewicht angeben
Relative Effizienz
- zur Berechnung eines Mindestwerts an Imputationen
- setzt m Imputationen ins Verhältis zu unendlich vielen Imputationen
- Grenzwert: 0.9 oder höher
- in den meisten Fällen reichen 5-10 Imputationen
relative Zunahme der Varianz durch Imputation
- 1/Varianzveränderung
- größer 1: Varianzerhähung
- kleiner 1: Varianzreduktion
Outlier
- bei N<80: +- 2,5 SD vom MW
- bei N> 80: +- 4 SD vom MW
Outlier Box Plots
- Extremwerte: über 3-fache Kantenlänge
- Ausreißer: 1,5 bis 3 fache Kantenlänge
- Kantenlänge ist der Bereich, der die mittleren 50% erfasst
- bis 1,5 fache Kantenlänge gehen die Whisker, alles außerhalb sind Ausreißer
-
- 1 / 94
-