Methoden

Methoden der Statistik oder so

Methoden der Statistik oder so


Kartei Details

Karten 145
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 10.09.2025 / 10.09.2025
Weblink
https://card2brain.ch/cards/20250910_methoden?max=40&offset=120
Einbinden
<iframe src="https://card2brain.ch/box/20250910_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Kriterien und Guidelines für Literatur Review 

Phase 1: Motivation, Ziel und Forschnungsfragen klar benannt und begründet? Berücksichtigt Review frühere Literaturreviews und andere relevante Literatur 

Phase 2: praktischer Suchprozess und ein- und Ausschlusskriterien nachvollziehbar und gut dokumentiert? 

Phase 3: ist Extraktionsprozess der Daten nachvollziehbar? Gewählte Analysemethode im Hinblick auf Forschungsfrage und extrahierte Daten passend? 

Phase 4: sind die Ergebnisse klar und angemessen dargestellt? Forschungsstand sinnvoll zusammengefasst und in nützlichen Kontext gebracht? 

Meta-Analysen 

Ziele 

1. Schätzung des Gesamteffekts (Einzelergebnisse bestmöglich aggregieren; Punktschätzungen und Konfidenzintervalle für interessierende Parameter) 

2. Identifikation von Moderatorvariablen (systematische Unterschiede-->beeinlfussen Ergebnisse; Analyse der Heterogenität durch Einbeziehung von Drittvariablen) 

-->typischerweise Effektstärken der Primärstudien als abhängige Variable = standardisiertes Maß und eignet sich zum Vgl über Studien hinweg) 

--> Primärstudien mit hinreichender Ähnlckeit bzgl der zu untersuchenden Variablen, aber auch Heterogenität für Generalisierbarkeit 

Metaanalyse Auswertungsschritte 

1. Bestimmung der Effektstärken (Standardisierte MWUnterschiede --> Crohans d; Korrelationskoeffizienten --> Produkt-Moment-Korrelation; Proportionen (Risiko Maße)-->Odds Ratio) 

-abhängig vom Skalenniveau der Variablen (metrisch vl kategorial) und Untersuchungsdesign 

2. ggf Korrektur der Effektstärken (Äbhängigkeiten können berechnet werden, werden aber meistens ignoriert) 

3. Berechnung der gewichteten mittleren Effektstärke (zB Forest Plot

4. Signifikanztest des gemittelten Effekts gg 0 (Inferenzstatistischer z-Test der Nullhypothese)

5. ggf Durchfphrung von Moderatorvariablen (wenn Effektstärken nicht homogen/ Homogenitätsstatistik) 

Homogenitätsstatistik 

quadrierte Abweichung der Effektstärken in den einzelnen Studien vom totalen Effekt gewichtet mit den SE --> X^2-Test auf Signifikanz prüfen --> wenn signifikant, dann Homogenität verworfen 

Versuch Heterogenität zwischen den Primärstudien zu modellieren 

-kategoriale Moderatoren: Varianzanalyse 

-kontinuierliche Moderatoren: multiple Regressionsanalyse 

 

Publication Bias 

Überschätzung der Stärke des Gesamteffekts 

Gegenmaßnahme: Funnel Plot --> Symmetrie wichtig --> rechts ehr Punkte als Links Hinweis darauf dass STudien mit kleinen SP und nicht sign Ergebnisen nicht veröffentlicht wurden 

Ziel von statistischen Analysen 

Schätzung von Populationsparametern 

Beurteilung der Parameterschätzung (Bias und Effizienz der Schätzung) 

--> BIas: Verzerrung zwischen den vorhergesagten und den erhobenen Daten 

 

Klassische Inferenz-Statistik

ZufallsSP wird gezogen aus einer Verteilung mit unbekanntem Parameter 

ZufallsSP ist mit einer Wahrschienlichkeitsverteilung versehen 

--> Versuch wahren Wert (Theta) zu erhalten --> geht wegen Fehler (Messfehler; Verzerrungen) nicht 

Missing Data Patterns 

Missing Data Pattern: welche Werte in einer Datenmatrix fehlen und welche beobachtet wurden 

Missing Data Mechanismus: Beziehung zwischen dem Fehlen und den Werten der Variabeln in der Datenmatrix (hängt es zusammen?)

systematisches vl unsystematisches Fehlen von Daten 

Univariate Nonresponse (nur eine Variable fehlt) 

Multivariate Nonresponse (fehlende Werte in mehreren Variablen) 

Item- Nonresponse: einzelne Items wurden nicht beantwortet 

Unit-Nonresponse: Ganze Personen fallen aus 

Monotones Pattern: fehlende Werte folgen einem geordneten monotonen Verlauf entlang der Zeitachse/ Variablenreihenfolge 

Missing by Design (Planned Missingness): wenn x ganzer Fragebogen und setzt sich aus y +z zusammen --> manche Personen bekommen nur y Fragebogenteil und andere nur z (zb wegen Entlastung) 

Allgemeines Pattern: Items haben Schnittstellen (bei den nicht beantworteten) bei denselben Personen 

Latente Variablen als fehlende Daten: werden als fehlende Daten behandelt, weil nicht erfassbar (bedingte Unabhängigkeit der Items; IRT Skalierung zur Umwandlung der messbaren Items in latente Variable) 

Fehlende Daten in Theorie kausaler Effekte: Kausalinferenz (entweder T oder C) --> in nicht randomisierten Studien führt Korrelation zwischen Kovariaten und Treatment zu Selektionsbias --> beobahctete Mittelwertsdifferenz bildet nicht kausalen Effekt ab 

Ursache fehlender Werte MCAR (Missing completely at Random) 

fehlende Werte (auf einer Variable Y) stellen eine Zufallsstichprobe aus erhobenen Daten dar --> vollständig zufällig fehlende Werte

Zwei Bedingungen 

1. Auftreten fehlender Werte kovariiert nicht mit der Ausprägung anderer Variablen 

2. Kein Zusammenhang zwischen dem Fehlen eines Wertes und der Ausprägung der kritischen Variablen selbst 

--> fehlende Werte weder abhängig von Y, noch von anderen Varibalen 

Ursache fehlender Daten MAR (Missing at Random) 

fehlen eines Wertes bei einer Variable hängt mit der Ausprägung auf anderen beobachteten Variablen zusammen, wird aber nicht von der Ausprägung auf der Variablen selbst beeinflusst --> Beobachtung fehlt zufällig 

nach Kontrolle der beobachteten Variable hängt das Auftreten fehlender Werte nicht mehr von der Ausprägung der Variablen selbst ab 

Zb EInkommen vom Alter 

Ursache fehlender Daten MNAR (Missing Not at Random) 

Auch nach Kontrolle der beobachteten Variablen hängt das Auftreten fehlender Werte von der Ausprägung auf der Variablen selbst ab --> Ausfallmechanismus muss direkt modelliert werden 

Ausfall von Y hängt von Y selbst ab 

Einbeziehen von Hilfsvariablen 

Klassifikation des Ausfallprozesses wird relativ zu dem betrachteten Datensatz vorgenommen 

explizit Items berücksichtigen, die gute Prädiktoren für Variablen mit potenziell fehlenden Werten sind

Beispiel: R:Indikatorvariable Response Y; X:Alter; Y:Einkommen; Z:Zufallsvariable; I:weitere Einflüsse (wie zB wie wahrscheinlich ist es dass sie ihr Einkommen nicht angeben wenn es besonders hoch/niedrig ist) 

-->dann kein Einfluss mehr von Y auf R weil I die Erklärung ist 

Einbeziheung von Hilfsvariablen I kann MNAR zu MAR verändern 

Imputationsverfahren (ersetzen fehlender Werte) 

klassische Verfahren (ad-hoc Lösungen): fallweiser Ausschluss; Paarweiser AUsschluss; Gewichtung 

Imputationdsbasierte Verfahren: Mean Substitution; Matching; Stochastic Regression Imputation; multiple Imputation 

Modellbasierte Verfahren: EM-Algorithmus; FIML-Methode (gleichzeitig Behandlung Ausfallprozess und Modellierung der Daten) 

Single Imputation- Klassische Verfahren- Fallweiser Ausschluss 

nur die Personen werden in Analyse einbezogen, die für alle Variablen gültige Werte besitzen --> alle Fälle aus der Analyse ausgeschlossen, die mindestens einen fehlenden Wert auf einer der benötigten Variablen haben 

Voreinstellung in meisten Softwarepaketen 

Nachteil: liegt nicht MCAR vor --> Bias in Parameterschätzung; Verlust an Power durch SP kleiner 

Single Imputation- klassische Verfahren- paarweise Ausschluss 

alle verfügbaren Fälle verwendet: unterschiedliche TeilSP für verschieden Berechnungen 

zb bei Korrelationsmatrix wenn die hier relevanten Items beantwortet sind, nehmen wir die Daten auch her 

Nachteile: Verzerrte Schätzung wenn nicht MCAR; Korrelationsmatrix kann nicht positiv definiert sein (kann nicht invertiert werden--> weiterreichen mit SEM,PCA etc geht nicht); Interpretation schwierig weil Bestimmung SP nicht möglich 

 

Single Imputation- klassische Verfahren - Gewichtung 

häufig in Surveyforschung verwendet

Wenn unit Nonresponse 

Ziel: Verteilung der Population mit Hilfe von personenspezifischen Gewichten in der SP möglichst präzise nachbilden 

Nachteile: fehlende Werte nicht MCAR --> verzerrte Parameterschätzung, Berechnung von Standardfehlern komplex 

Imputationsbasierte Verfahen im Überblick 

jeder fehlende Wert soll durch einen oder mehrere möglichst plausible Werte ersetzt werden 

++ effizienter; präziser als SI; vollständiger Datensatz 

Imputationsbasierte Verfahren - Mittelwertersetzung (Mean Imputation) 

fehlende Werte werden durch den MW der beobachteten Variable ersetzt 

Nachteile: erhebliche Varianzreduktion; Verzerrte Parameterschätzung 

bei MCAR also komplett zufälligem Fehlen keine Verzerrung des MW; ABER bei MAR schon 

Imputationsbasierte Verfahren - deterministische (Multiplt) Regression Imputation 

fehlende Werte auf einer Variablen Y werden mit Hilfe einer multiplen Regression ersetzt 

Ziel: fehlende Werte auf einer Variable Y sollen mit Hilfe der Info aus anderen beobachteten Variablen ersetzt werden 

vorhandene Werte hernehmen für Regressionsberechnung; dann auffüllen

Nachteile: verzerrte Schätzungen der Varianzen und Kovarianzen (künstlich perfekte Werte); Überschötzung des Zusammenhangs zwischen Regression und den Variablen (Y und X Zusammenhang); Datenbeispiel MAR Deterministic Regression Imputation (keine optimale Populationsschätzungen) 

Imputationsbasierte Verfahren - stochastic Imputation 

zu den vorhergesagten Werten der Regressionsgleichung wird ein zufälliger Fehler hinzugefügt 

zwei Vorgehen zur Bestimmung des Fehlers: 

- Ziehung aus der empirischen Verteilung der Regressionsresiduen 

- Anhand einer geschätzten (Normal-)Verteilung der Residuen simuliert 

--> bessere Populationsschätzung 

Multiple Imputation Schitte 

1. für jeden fehlenden Wert werden unter Einbezug der im Datensatz vorhandenen Information mehrere Ersetzungen vorgenommen (berücksichtigt Unsicherheit über "wahre" fehlende Werte) 

2. Analyse: jeder Datensatz wird mit Standardverfahren analysiert (Regression, t-Test etc) 

3. Imputation: Ergebnisse der getrennt durchgeführten Analysen werden zusammengefasst 

-->Integration aller Analysemodelle in ein Imputationsmodell 

Joint Modelling 

gemeinsame multivariate Normalverteilung (NORM) 

aus dieser Normalverteilung simultan für alle fehlenden Werte gemeinsam gezogen --> gemeinsame Verteilung der Variablen (Teta) 

Full conditional Modelling 

Folge von bedingten Modellen (MICE) --> höhere Flexibilität 

nacheinander für jede Variable mit fehlenden Werten ein separates Modell geschätzt 

besonders gut für gemischte Datentypen (metrisch, ordinal, nominal) 

--> keine gemeinsame Verteilung, sondern für jede Variable separat imputiert 

Statistische Inferenz bei Multipler Imputation 

MI erzeugt mehrere vollständige Datensätze, in denen fehlende Werte durch plausible Werte ersetzt werden 

für jeden Datensatz wird interessierender Parameter geschätzt UND Varianz dieser Schätzung 

Rubin: erlaubt Konstruktion von Konfidenzintervallen (nach Normalverteilung oder t-Verteilung mit v Freiheitsgraden) und Teststatistiken t (mit zugehörigen p-Werten) --> nimmt Normalverteilung an 

Inferenz für Korrealtionen und Varianzen mit Rubin-Formel problematisch (oft keine Normalverteilung) 

--> Transformation der Statistik, so dass näherungsweise Normalverteilung gilt: zB Fishers z-Transformation für Korrelationen oder Log-Transformation für Varianzen 

nach der Analyse der transformierten Werte wird die Rücktransformation zur Interpreation durchgeführt 

Lernen