Methoden
Methoden der Statistik oder so
Methoden der Statistik oder so
Fichier Détails
| Cartes-fiches | 145 |
|---|---|
| Langue | Deutsch |
| Catégorie | Psychologie |
| Niveau | Université |
| Crée / Actualisé | 10.09.2025 / 10.09.2025 |
| Lien de web |
https://card2brain.ch/cards/20250910_methoden?max=40&offset=120
|
| Intégrer |
<iframe src="https://card2brain.ch/box/20250910_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Kriterien und Guidelines für Literatur Review
Phase 1: Motivation, Ziel und Forschnungsfragen klar benannt und begründet? Berücksichtigt Review frühere Literaturreviews und andere relevante Literatur
Phase 2: praktischer Suchprozess und ein- und Ausschlusskriterien nachvollziehbar und gut dokumentiert?
Phase 3: ist Extraktionsprozess der Daten nachvollziehbar? Gewählte Analysemethode im Hinblick auf Forschungsfrage und extrahierte Daten passend?
Phase 4: sind die Ergebnisse klar und angemessen dargestellt? Forschungsstand sinnvoll zusammengefasst und in nützlichen Kontext gebracht?
Meta-Analysen
Ziele
1. Schätzung des Gesamteffekts (Einzelergebnisse bestmöglich aggregieren; Punktschätzungen und Konfidenzintervalle für interessierende Parameter)
2. Identifikation von Moderatorvariablen (systematische Unterschiede-->beeinlfussen Ergebnisse; Analyse der Heterogenität durch Einbeziehung von Drittvariablen)
-->typischerweise Effektstärken der Primärstudien als abhängige Variable = standardisiertes Maß und eignet sich zum Vgl über Studien hinweg)
--> Primärstudien mit hinreichender Ähnlckeit bzgl der zu untersuchenden Variablen, aber auch Heterogenität für Generalisierbarkeit
Metaanalyse Auswertungsschritte
1. Bestimmung der Effektstärken (Standardisierte MWUnterschiede --> Crohans d; Korrelationskoeffizienten --> Produkt-Moment-Korrelation; Proportionen (Risiko Maße)-->Odds Ratio)
-abhängig vom Skalenniveau der Variablen (metrisch vl kategorial) und Untersuchungsdesign
2. ggf Korrektur der Effektstärken (Äbhängigkeiten können berechnet werden, werden aber meistens ignoriert)
3. Berechnung der gewichteten mittleren Effektstärke (zB Forest Plot
4. Signifikanztest des gemittelten Effekts gg 0 (Inferenzstatistischer z-Test der Nullhypothese)
5. ggf Durchfphrung von Moderatorvariablen (wenn Effektstärken nicht homogen/ Homogenitätsstatistik)
Homogenitätsstatistik
quadrierte Abweichung der Effektstärken in den einzelnen Studien vom totalen Effekt gewichtet mit den SE --> X^2-Test auf Signifikanz prüfen --> wenn signifikant, dann Homogenität verworfen
Versuch Heterogenität zwischen den Primärstudien zu modellieren
-kategoriale Moderatoren: Varianzanalyse
-kontinuierliche Moderatoren: multiple Regressionsanalyse
Publication Bias
Überschätzung der Stärke des Gesamteffekts
Gegenmaßnahme: Funnel Plot --> Symmetrie wichtig --> rechts ehr Punkte als Links Hinweis darauf dass STudien mit kleinen SP und nicht sign Ergebnisen nicht veröffentlicht wurden
Ziel von statistischen Analysen
Schätzung von Populationsparametern
Beurteilung der Parameterschätzung (Bias und Effizienz der Schätzung)
--> BIas: Verzerrung zwischen den vorhergesagten und den erhobenen Daten
Klassische Inferenz-Statistik
ZufallsSP wird gezogen aus einer Verteilung mit unbekanntem Parameter
ZufallsSP ist mit einer Wahrschienlichkeitsverteilung versehen
--> Versuch wahren Wert (Theta) zu erhalten --> geht wegen Fehler (Messfehler; Verzerrungen) nicht
Missing Data Patterns
Missing Data Pattern: welche Werte in einer Datenmatrix fehlen und welche beobachtet wurden
Missing Data Mechanismus: Beziehung zwischen dem Fehlen und den Werten der Variabeln in der Datenmatrix (hängt es zusammen?)
systematisches vl unsystematisches Fehlen von Daten
Univariate Nonresponse (nur eine Variable fehlt)
Multivariate Nonresponse (fehlende Werte in mehreren Variablen)
Item- Nonresponse: einzelne Items wurden nicht beantwortet
Unit-Nonresponse: Ganze Personen fallen aus
Monotones Pattern: fehlende Werte folgen einem geordneten monotonen Verlauf entlang der Zeitachse/ Variablenreihenfolge
Missing by Design (Planned Missingness): wenn x ganzer Fragebogen und setzt sich aus y +z zusammen --> manche Personen bekommen nur y Fragebogenteil und andere nur z (zb wegen Entlastung)
Allgemeines Pattern: Items haben Schnittstellen (bei den nicht beantworteten) bei denselben Personen
Latente Variablen als fehlende Daten: werden als fehlende Daten behandelt, weil nicht erfassbar (bedingte Unabhängigkeit der Items; IRT Skalierung zur Umwandlung der messbaren Items in latente Variable)
Fehlende Daten in Theorie kausaler Effekte: Kausalinferenz (entweder T oder C) --> in nicht randomisierten Studien führt Korrelation zwischen Kovariaten und Treatment zu Selektionsbias --> beobahctete Mittelwertsdifferenz bildet nicht kausalen Effekt ab
Ursache fehlender Werte MCAR (Missing completely at Random)
fehlende Werte (auf einer Variable Y) stellen eine Zufallsstichprobe aus erhobenen Daten dar --> vollständig zufällig fehlende Werte
Zwei Bedingungen
1. Auftreten fehlender Werte kovariiert nicht mit der Ausprägung anderer Variablen
2. Kein Zusammenhang zwischen dem Fehlen eines Wertes und der Ausprägung der kritischen Variablen selbst
--> fehlende Werte weder abhängig von Y, noch von anderen Varibalen
Ursache fehlender Daten MAR (Missing at Random)
fehlen eines Wertes bei einer Variable hängt mit der Ausprägung auf anderen beobachteten Variablen zusammen, wird aber nicht von der Ausprägung auf der Variablen selbst beeinflusst --> Beobachtung fehlt zufällig
nach Kontrolle der beobachteten Variable hängt das Auftreten fehlender Werte nicht mehr von der Ausprägung der Variablen selbst ab
Zb EInkommen vom Alter
Ursache fehlender Daten MNAR (Missing Not at Random)
Auch nach Kontrolle der beobachteten Variablen hängt das Auftreten fehlender Werte von der Ausprägung auf der Variablen selbst ab --> Ausfallmechanismus muss direkt modelliert werden
Ausfall von Y hängt von Y selbst ab
Einbeziehen von Hilfsvariablen
Klassifikation des Ausfallprozesses wird relativ zu dem betrachteten Datensatz vorgenommen
explizit Items berücksichtigen, die gute Prädiktoren für Variablen mit potenziell fehlenden Werten sind
Beispiel: R:Indikatorvariable Response Y; X:Alter; Y:Einkommen; Z:Zufallsvariable; I:weitere Einflüsse (wie zB wie wahrscheinlich ist es dass sie ihr Einkommen nicht angeben wenn es besonders hoch/niedrig ist)
-->dann kein Einfluss mehr von Y auf R weil I die Erklärung ist
Einbeziheung von Hilfsvariablen I kann MNAR zu MAR verändern
Imputationsverfahren (ersetzen fehlender Werte)
klassische Verfahren (ad-hoc Lösungen): fallweiser Ausschluss; Paarweiser AUsschluss; Gewichtung
Imputationdsbasierte Verfahren: Mean Substitution; Matching; Stochastic Regression Imputation; multiple Imputation
Modellbasierte Verfahren: EM-Algorithmus; FIML-Methode (gleichzeitig Behandlung Ausfallprozess und Modellierung der Daten)
Single Imputation- Klassische Verfahren- Fallweiser Ausschluss
nur die Personen werden in Analyse einbezogen, die für alle Variablen gültige Werte besitzen --> alle Fälle aus der Analyse ausgeschlossen, die mindestens einen fehlenden Wert auf einer der benötigten Variablen haben
Voreinstellung in meisten Softwarepaketen
Nachteil: liegt nicht MCAR vor --> Bias in Parameterschätzung; Verlust an Power durch SP kleiner
Single Imputation- klassische Verfahren- paarweise Ausschluss
alle verfügbaren Fälle verwendet: unterschiedliche TeilSP für verschieden Berechnungen
zb bei Korrelationsmatrix wenn die hier relevanten Items beantwortet sind, nehmen wir die Daten auch her
Nachteile: Verzerrte Schätzung wenn nicht MCAR; Korrelationsmatrix kann nicht positiv definiert sein (kann nicht invertiert werden--> weiterreichen mit SEM,PCA etc geht nicht); Interpretation schwierig weil Bestimmung SP nicht möglich
Single Imputation- klassische Verfahren - Gewichtung
häufig in Surveyforschung verwendet
Wenn unit Nonresponse
Ziel: Verteilung der Population mit Hilfe von personenspezifischen Gewichten in der SP möglichst präzise nachbilden
Nachteile: fehlende Werte nicht MCAR --> verzerrte Parameterschätzung, Berechnung von Standardfehlern komplex
Imputationsbasierte Verfahen im Überblick
jeder fehlende Wert soll durch einen oder mehrere möglichst plausible Werte ersetzt werden
++ effizienter; präziser als SI; vollständiger Datensatz
Imputationsbasierte Verfahren - Mittelwertersetzung (Mean Imputation)
fehlende Werte werden durch den MW der beobachteten Variable ersetzt
Nachteile: erhebliche Varianzreduktion; Verzerrte Parameterschätzung
bei MCAR also komplett zufälligem Fehlen keine Verzerrung des MW; ABER bei MAR schon
Imputationsbasierte Verfahren - deterministische (Multiplt) Regression Imputation
fehlende Werte auf einer Variablen Y werden mit Hilfe einer multiplen Regression ersetzt
Ziel: fehlende Werte auf einer Variable Y sollen mit Hilfe der Info aus anderen beobachteten Variablen ersetzt werden
vorhandene Werte hernehmen für Regressionsberechnung; dann auffüllen
Nachteile: verzerrte Schätzungen der Varianzen und Kovarianzen (künstlich perfekte Werte); Überschötzung des Zusammenhangs zwischen Regression und den Variablen (Y und X Zusammenhang); Datenbeispiel MAR Deterministic Regression Imputation (keine optimale Populationsschätzungen)
Imputationsbasierte Verfahren - stochastic Imputation
zu den vorhergesagten Werten der Regressionsgleichung wird ein zufälliger Fehler hinzugefügt
zwei Vorgehen zur Bestimmung des Fehlers:
- Ziehung aus der empirischen Verteilung der Regressionsresiduen
- Anhand einer geschätzten (Normal-)Verteilung der Residuen simuliert
--> bessere Populationsschätzung
Multiple Imputation Schitte
1. für jeden fehlenden Wert werden unter Einbezug der im Datensatz vorhandenen Information mehrere Ersetzungen vorgenommen (berücksichtigt Unsicherheit über "wahre" fehlende Werte)
2. Analyse: jeder Datensatz wird mit Standardverfahren analysiert (Regression, t-Test etc)
3. Imputation: Ergebnisse der getrennt durchgeführten Analysen werden zusammengefasst
-->Integration aller Analysemodelle in ein Imputationsmodell
Joint Modelling
gemeinsame multivariate Normalverteilung (NORM)
aus dieser Normalverteilung simultan für alle fehlenden Werte gemeinsam gezogen --> gemeinsame Verteilung der Variablen (Teta)
Full conditional Modelling
Folge von bedingten Modellen (MICE) --> höhere Flexibilität
nacheinander für jede Variable mit fehlenden Werten ein separates Modell geschätzt
besonders gut für gemischte Datentypen (metrisch, ordinal, nominal)
--> keine gemeinsame Verteilung, sondern für jede Variable separat imputiert
Statistische Inferenz bei Multipler Imputation
MI erzeugt mehrere vollständige Datensätze, in denen fehlende Werte durch plausible Werte ersetzt werden
für jeden Datensatz wird interessierender Parameter geschätzt UND Varianz dieser Schätzung
Rubin: erlaubt Konstruktion von Konfidenzintervallen (nach Normalverteilung oder t-Verteilung mit v Freiheitsgraden) und Teststatistiken t (mit zugehörigen p-Werten) --> nimmt Normalverteilung an
Inferenz für Korrealtionen und Varianzen mit Rubin-Formel problematisch (oft keine Normalverteilung)
--> Transformation der Statistik, so dass näherungsweise Normalverteilung gilt: zB Fishers z-Transformation für Korrelationen oder Log-Transformation für Varianzen
nach der Analyse der transformierten Werte wird die Rücktransformation zur Interpreation durchgeführt