Statistik

Klausurvorbereitung

Klausurvorbereitung


Set of flashcards Details

Flashcards 94
Language Deutsch
Category Psychology
Level University
Created / Updated 06.02.2025 / 11.02.2025
Weblink
https://card2brain.ch/box/20250206_statistik
Embed
<iframe src="https://card2brain.ch/box/20250206_statistik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Winsorisieren

  • es wird um den MW einer Stichprobe ein KI ermittelt
  • dieses enthält 90% aller Werte
  • alle Werte außerhalb dieses KIS werden als Ausreißer betrachtet und ersetzt
  • Werte unter der 5% Grenze werden durch den Wert der unteren Grenze ersetzt
  • Werte der oberen Grenze werden durch den Wert der oberen Grenze ersetzt
  • Stichprobengröße bleibt erhalten
  • aber die ersetzten Werte sind mit hoher Wkeit falsch

MCAR

  • Fehlen von Daten ist über alle Beobachtungen hinweg völlig zufällig verteilt
  • es gibt keine systematischen Muster/ Zusammenhänge mit den erhobenen Variablen oder der Variable selbst
  • Fälle mit fehlenden Werten unterscheiden sich nicht von Fällen ohne fehlende Werte
  • Datensatz mit vollständigen Daten ist eine Teilstichprobe des Gesamtdatensatzes
  • somit liegt nur ein Verlust an statistischer Power vor, aber keine Verzerrung der statistischen Kennwerte
    • sehr streng, da es in psychologischen Studien eigentlich immer mind. 1 Zusammenhang gibt

MAR

  • das Auftreten eines fehlenden Wertes kann durch die Ausprägung in anderen Variablen vorhergesagt werden
  • Personen mit vollständigen Daten unterscheiden sich somit von Personen mit unvollständigen Daten in weiteren Variablen
  • dieser Unterschied kann anhand des Datensatzes erklärt werden
  • es liegt eine Verzerrung in der Variablen mit fehlenden Werten vor, da das Auftreten dieser fehlenden Werte systematisch ist
  • es gibt gute Ersetzungsverfahren, die die vorhandenen Zusammenhänge berücksichtigen

NRM

  • das Auftreten eines fehlenden Wertes steht nur im Zusammenhang mit der Ausprägung der Person in genau dieser Variable
  • es gibt keine weitere Variable im Datensatz, die eine Vorhersage dieses Fehlens erlaubt
  • es liegt eine systematische Verzerrung der Daten
  • jede Form von Ersetzung ist schwierig

Liegen mehr als 5% fehlende Werte vor, ...

... ist von den klassischen Verfahren im Umgang mit fehlenden Werten abzuraten. Bei großen Stichproben und nur einer geringen Anzahl an fehlenden Werte ist der Einfluss der Ersetzungsverfahren allerdings gering

Standardersetzungsalgortihmen und deren Probleme

  1. listenweiser Ausschluss: die Daten einer Person werden komplett aus allen Berechnungen ausgeschlossen. --> starke Reduktion der Stichprobe
  2. paarweiser Ausschluss: falls ein Wert fehlt, wird bei dieser Berechnung die Person ausgeschlossen --> führt zu sehr unterschiedlichen Teilstichproben (aber immerhin wird die maximale Information in den Daten verwendet)
  3. Mittelwertsersetzung: fehlender Wert wird durch VariablenMW ersetzt --> Unterschätzung von Varianzen und Kovarianzen
  4. Regressionsimputation: ersetzt fehlende Werte mithilfe einer Regressionsgleichung, die im vollständigen Datensatz ermittelt wird --> Überschätzung von Varianzen und Kovarianzen

Testung von MCAR

  • kann nicht getestet werden
  • kann nur überprüft werden, ob eine notwendige, aber nicht hinreichende Bedingung für MCAR vorliegt
  • wird dieser Test signifikant, kann nicht automatisch von MCAR ausgegangen werden
  • MAR liegt in der Praxis häufiger vor
  • Ersetzungsverfahren vergleichbar mit VA und Kovarianzanalyse (Berücksichtigung von Kovariaten)

multiple Imputation

  • jeder fehlender Wert wird mehrfach ersetzt
  • es werden mehrere vollständige Datensätze erstellt, in denen die fehlenden Werte auf unterschiedliche Weise geschätzt werden
  • diese verschiedenen Datensätze werden dann zusammengeführt, um eine robuste Schätzung zu erhalten, die die Unsicherheit aufgrund der fehlenden Daten berücksichtigt
  • grundlegende Überlegung: MW der Parameter aus den Imputationen ist der beste Schätzer des wahren Wertes
    • ABER: jede Ersetzung ist auch nur eine Schätzung, die wiederum Fehler beinhaltet --> Wie groß ist also die Unsicherheit bei der Ersetzung der fehlenden Werte?
    • dazu sollten Varianzen innerhalb und zwischen den Imputationen beachtet werden

Varianzen innerhalb von Imputationen

  • Maß dafür, wie stabil die Schätzungen der fehlenden Daten sind
  • ermittelt über U
  • es wird der MW der Standardfehler ermittelt
  • wie stark weicht eine einzelne Imputation von diesem MW ab?

Varianzen zwischen Imputationen

  • Kennwert für die Unsicherheit des Datensatzes
  • Variation in den Schätzungen der fehlenden Werte
  • im Idealfall liegt zwischen den Imputationen wenig/ keine Varianz vor --> damit wären die imputierten Werte ähnlich und es besteht weniger Unsicherheit
  • bei hoher Varianz: viel Unsicherheit
  • ermittelt über B

Parameter, der sowohl Varanz innerhalb als auch zwischen Imputationen berücksichtigt

  • die Unsicherheit zwischen und innerhalb von Imputationen werden zu T zusammengefasst 
  • Standardfehler der Parameterschätzung ergibt sich aus der Wurzel aus T 
  • dieser Standardfehler zeigt, wie genau die Schätzung des Parameters ist
  • in einer Publikation: MW, Standardfehler und mittleres B-Gewicht angeben

Relative Effizienz

  • zur Berechnung eines Mindestwerts an Imputationen
  • setzt m Imputationen ins Verhältis zu unendlich vielen Imputationen
  • Grenzwert: 0.9 oder höher
  • in den meisten Fällen reichen 5-10 Imputationen

relative Zunahme der Varianz durch Imputation

  • 1/Varianzveränderung
  • größer 1: Varianzerhähung
  • kleiner 1: Varianzreduktion

Outlier

  • bei N<80: +- 2,5 SD vom MW
  • bei N> 80: +- 4 SD vom MW

Outlier Box Plots

  • Extremwerte: über 3-fache Kantenlänge
  • Ausreißer: 1,5 bis 3 fache Kantenlänge
  • Kantenlänge ist der Bereich, der die mittleren 50% erfasst
  • bis 1,5 fache Kantenlänge gehen die Whisker, alles außerhalb sind Ausreißer

Überprüfung der Korrelationsmatrix

Überprüfung der Bedeutsamkeit der Korrelationsmatrix: weicht die Matrix signfikant von der Einheitsmatrix ab?

  1. Bartlett-Test: zusätzlich: Erfassen die extrahierten Faktoren die Gesamtvarianz hinreichend?
  2. Bildung der Inversen
  3. Kaiser-Mayer-Oklin: measure of sampling adequacy, Werte über 0.7 gelten als gut, unter 0.5 sollte keine FA durchgeführt werden, ab einem Wert von 0.8 als sinnvoll erachtet

Faktorladungen

  • Gewichte der Faktoren
  • zeigen die Korrelation zwischen den Ausgangsvariablen und den zugehörigen Faktoren
  • wird die Faktorladungsmatrix quadriert, sprechen wir von Determinationskoeffizienten, die den Anteil der erklärbaren Varianz wiedergeben

1. Grundgleichung der FA

  • jeder beobachtete Wert einer standardisierten Ausgangsvariablen lässt sich als eine Linearkombination mehrerer hypothetischer Faktoren beschreiben
  • Z = Faktorwertematrix mal Faktorladungsmatrix

Kommunalität

  • Zeilensumme der quadrierten Werte der Faktorladungsmatrix
  • Varianzanteil, den alle Faktoren an der jeweiligen Variablen erklären können
  • Kennwert zur Bewertung der Passung der Variablen in der FA

Eigenwert

  • wird über die Spaltensumme der quadrierten Werte der Faktorladungsmatrix berechnet
  • gibt an, wie viel Varianz der Faktor an allen Variablen erklärt
  • dient als Kennwert zur Bewertung der ermittelten Faktoren

Kommunalitätenproblem

  • zu Beginn der 1. Iteration werden die Kommunalitäten zur Schätzung der neuen Parameter benötigt
  • diese können aber ers nach dieser ersten Iteration bestimmt werden
  • es gibt 2 Arten zur Bestimmung der Kommunalitäten vor der ersten Iteration: Hauptachsenanalyse und Hauptkomponentenanalyse
  • HA: Kommunalitäten werden vor der 1. iteration über ein separates Verfahren geschätzt - es soll möglichst viel gemeinsame Varianz der Variablen beschrieben werden, Faktoren, auf denen nur eine Variable lädt, werden unterdrückt
  • Hauptkomponentenanalyse: die Diagonalelemente der Korrelationsmatrix bei der 1. iteration werden auf 1 gesetzt. - es soll möglichst viel Gesamtvarianz erklärt werden, es wird in Kauf genommen, dass ein oder mehrere Faktiren entstehen, auf die möglicherweise nur eine Variable substantiell lädt

Kriterien zur Bestimmung der Faktorenanzahl

  • Kaiser-Gutmann
  • Kriterium der extrahierten Varianz
  • Scree-Test
  • Evaluation der Lösung
  • Parallelanalyse nach Horn
  • MAP Test

2. Grundgleichung der FA

  • da mit weniger Faktoren als Variablen gerechnet wird: Gleichung erweitert sich um Fehlerkomponente und variablenspezifischen Faktor
    • Zerlegung der Varianz einer Ursprünglichen Variablen in Kommunalität (Varianzanteil, der durch gemeinsamen Faktor erklärt werden kann)
    • und Spezifität (Varianzanteil, der durch spezifischen Faktor erklärt werden kann) 
    • und Fehler
    • Kommunalität und Spezifität ergeben zusammen die Reliabilität

3. Grundgleichung der FA

  • beschreibt die Reproduktion der Korrelationen der Ausgangsvariablen

Rotationsproblem

  • Ziel; einfache und inhaltliche gut interpretierbare Lösung = Eifnachstruktur
  • orthogonale Rotation: Unabhäniggkeit der Faktoren bleibt erhalten
  • oblique Rotation: abhängige Faktoren, aber damit evtl. besser interpretierbar

Faktorwerteproblem

  • Faktorwerte sind die Gewichte der Ausprägungen einer Person auf den Faktoren
  • eher ein mathematisches Problem: Schwierigkeit, eindeutige und interpretierbare Faktorwerte zu bestimmen (hängen von der gewählten Methode ab)

Voraussetzungen für HLM

  • intervallskaliertes Kriterium/ AV
  • Prädiktoren haben Varianz
  • keine Mulitkollinearität
  • Prädiktoren korrelieren nicht mit im Modell unberücksichtigten Variablen
  • Level 1 Residuen sind NV mit MW 0

Vorgehen bei HLM

  1. Bildung eines Nullmodells (ohne Prädiktoren), enthält nur Regressionskonstante und Residuen auf Level 1 und 2
  2. unterscheiden sich die Gruppen? Intraclass-Korrelation p = Zwischengruppenvarianz/ Gesamtvarianz -- hohes p spricht für Mehrebenenanalyse
  3. Bildung weiterer Modelle durch Hinzunahme von Prädiktoren über ML-Schätzungen
  4. mit den Level 2 Prädiktoren werden innerhalb der Level 1 Einheiten die b-Gewichte der dortigen Regression mit vorhergesagt
  5. somit kann der Einfluss der Faktoren auf beiden Levels ermittelt und verglichen werden
  6. Vergleich der Passung der Modelle
  7. Passung wird über deviance (Log-Likelihood) erfasst

Hauptfragstellungen der Diskriminanzanalyse

  1. Unterscheiden sich die Gruppen statistisch bedeutsam?
  2. Welche Variablen tragen maßgeblich zur Unterschiedung zwischen den Gruppen bei?
  3. Kann die Gruppenzugehörigkeit anhand der Diskriminanzfunktion vorhergesagt werden?

Vorgehen Diskriminanzanalyse

  1. Schätzung der Diskriminanzfunktion: Wilk's Lambda, nicht erklärte Varianz, Mahalanobis-Abstand, kleinster F-Quotient, Raos V
  2. Überprüfung der Diskriminanzfunktion: Häufigkeitstabellen, Kreuzvalidierung, Signifikanz des multivariaten Wilk's Lamba über alle Diskriminanzfunktionen
  3. Ermittlung der Trennwerte - bei gleicher Gruppengröße: (Za+Zb)/2, bei ungleicher Gruppengröße: Na*Zb + Nb *Za/ (Na+Nb)
  4. Bewertung der Zuordnung: relativer Anteil der korrekt vorhergesagten Personen (über t berechnen) oder Bewertung der Vorhersage in Relation zur Wkeit über Press's Q - Signifikanz? + Analyse der Fehlklassifizierten

Anforderungen an die Gruppengröße Diskriminanzanalyse

  • Vorliegen von ähnlich großen Gruppen, sonst versagt die Diskriminanzanalyse
  • mind. 20 pro Pädiktor (UV) und mind. 20 pro Kategorie (AV)

logistische Regression - was wird gemacht?

  • erlaubt die Prognose der Wkeit für eine Kategorienzugehörigkeit
  • auf Grundalge der linearen Regression
  • odds(Wkeiten) = p/ 1-p, wird logarithmiert
  • für diesen logit Ausdruck wird ein einfaches lineares Regressionsmodell erstellt: logit (p) = Beta0 + Beta1*x1 + ...
  • durch Einsetzen und Umstellen von p ergibt sich Gleichung (siehe FS)
  • die Schätzung der Regressionskoeffizienten erfolgt mit der ML-Methode

logistische Regression - Interpretation der Regressionskoeffzienten

  1. Vorzeichen: positiv - Wkeit geht gegen 1, negativ - Wkeit geht gegen 0
  2. Odds Ratio: gibt die Erhöhung der Wkeit bei der Veränderung um eine Einheit der UV an OR = e^Beta1
  3. bei der multiplen logistischen Regression sind allerdings 1 +2 bezüglich der anderen Prädiktoren adjustiert und müssen unter Berücksichtigung der anderen Variablen interpretiert werden

logistische Regression - Güte der Vorhersage

  • Pseudo R^2-Werte: versuchen, den Varianzanteil, der durch die Prädiktoren erklärt wird, zu schätzen
  • Cox und Snell R^2
  • Nagelkerkes R^2
  • Qualität der Prädiktion über -2LL (=Vergleich Nullmodell mit ermitteltem Modell), dann X^2-Test, ob signifikant

Unterschied zwischen Standardschätzfehler, Standardabweichung und Standardfehler

  • SSF: beschreibt die Streuung der wahren y-Werte um die Regressionsgerade (unabhängig von der Stichprobengröße)
  • SD: Maß für die Streuung der x-Werte um den MW (relativ unabhängig von Stichprobengröße)
  • SF: Streuung einer Stichprobenstatistik um den tatsächlichen Populationsmttelwert

Voraussetzungen für eine lineare Regressionsanalyse

  1. Unabhängigkeit der Regressionsresiduen
  2. Prädiktor und Kriterium sind intervallskaliert und NV
  3. Homoskedastizität
  4. Regressionsresiduen NV

Kriterium der Schätzung der Parameter in linearer Regressionsanalyse

Kriterium der kleinsten Quadrate

Kovarianz von x und y (Formel)

= rxy * sy * sx

was ist eine Partialkorrelation?

  • beschreibt den linearen Zusammenhang zwischen 2 Variablen, aus dem der Einfluss einer dritten Variablen eliminiert wurde
  • quasi Korrelation von x und y, nachdem das Merkmal z aus x und y herauspartialisiert wurde

inkrementelle Validität

  • eine Variable besitzt inkrementelle Validität, wenn ihre Aufnahme als zusätzlicher Prädiktor in einer multiplen Regression mit mehreren Prädiktoren den Anteil der aufgeklärten Varianz im Kriterium signifikant erhöht