Methoden

Methoden der Statistik oder so

Methoden der Statistik oder so


Set of flashcards Details

Flashcards 145
Language Deutsch
Category Psychology
Level University
Created / Updated 10.09.2025 / 10.09.2025
Weblink
https://card2brain.ch/cards/20250910_methoden?max=40&offset=80
Embed
<iframe src="https://card2brain.ch/box/20250910_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Effektarten

ICE: Individuelle kausale Effekte für jede Person U=u 

- ICE = Yt (u) - Yc (u) 

- Problem kann man nicht messen, da man 1 Person immer nur einer Gruppe zuordnen kann --> kein Werte für Person A Treatment - Person A Control 

ATE: Durchschnitllicher kausaler Effekt über alle Personen (statt ICE das hier messen) 

- ACE = E(Yt) - E(Yc) --> Erwartungswert des Kriteriums nach Durchführung des Treatments- Erwartungswert des Kriteriums wenn Kontrollgruppe 

- Problem: kann man auch erstmal nciht messen, da es der Erwartungswert der kompletten Population ist 

ATE_Z=z: Bedingte durchschnittliche Effekte für Subgruppen 

-bedingte durchschnittliche Effekte on the Theater/nottreated ATE_X=x = E(ICE/X=x) bei Quasiexperiment 

-->Effekte von nur einer Gruppe --> Versuch alle Kovariaten Z zu erheben dann PFEZ=z ist kovariaten bedingter PFE

kausaler Effekt der (nicht-)behandelten 

PFEZ=z ist ATEZ=z --> weil innerhalb der Gruppen Randomisierung 

Zusammenfügen der ATEs aus verschieden Subgruppen durch Aufsummieren 

 

fundamental Problem of causal inference (nur einer der beiden true outcomes wird beobachtet und damit können auch die kausalen Effekte nciht einfach berechnet werden) 

Effektschätzung 

Unter bestimmten Kausalitätsbedingungen entspricht der beobachtete Erwartungsunterschied dem Average Treatment Effekt (ATE) 

--> wenn Treatmentwahrscheinlichkeit für alle Personen gleich (Randomisierung) 

Identifikation kausaler Effekte 

Ohne Randomisierung kann man für Gruppenunterschiede kontrollieren, so dass sich die Subgruppen nicht mehr unterscheiden 

1. Gedankenexperiment ermöglicht kausale Effekte zu definieren, unabhängig von Bedingungen in der Praxis (wir wissen was wir haben wollen) 

2. Kausalitätsbindungen geben uns Auskunft darüber wann man erwarten kann die kausalen Effekte in der Praxis zu finden 

-->im Experiment bei Randomisierung 

-->im Quasiexperiment bei Kontrolle aller Störvariablen 

 

Kausalitätsbedingugen 

gleiche Treatmenrwahrscheinlichkeit --> an kann Effekte schätzen -->randomisiertes Experiment (keine systematischen Gruppenunterschiede zwischen Treatment und Control) 

Strong ignorability: wenn man für alle Unterschiede zwischen den Behandlungsgruppen kontrolliert, dann kann man subgruppenspezifisch kausale Effekte schätzen 

Schätzung kausaler Effekte in der Empirie 

nur einer der beiden true outcomes wird beobachtet und damit können auch die kausalen Effektnicht einfach berechnet werden (Fundamental Problem of causal inference) 

-->Unterscheidung zwischen true outcomes und beobachtetem outcome 

Effektschätzer in der Empirie: ATE 

PFR (Prima Facie Effekt) : 

-einfache Differenz der Erwartungswerte auf der AV zwischen den behandelten und unbehandelten 

-Erwartungswere = Summe der einzelnen Werte yu gewichtet mit ihrer Auftretenswahrscheinlichkeit in der Gruppe X=x 

Kovariatenbedingte PFEs

Differenz de Erwartungswerte auf der AV zwischen den behandelten und unbehandelten Personen in SUbgruppe Z=z 

Bedingte Erwartungswerte = Summe der einzelnen Werte yu gewichtet mit ihrer Auftretenswahrscheinlichkeit in der Gruppe X=x & Z=z geschätzt --> wird über MW in der Gruppe X=x und Z=z geschätzt

Unverfälschtheit

in Experimenten hält zumeist PFE = ATE (wenn Randomisierung gelungen) -->nur hier sind einfache MWUnterschiede kausal interpretierbar 

in Quasiexperimenten gilt dies meist nicht --> Kontrolle aller relevanten Kovariaten --> PFEZ=z = ATEZ=z (Subgruppenwertsdifferenzen sollen den subgruppendurchschnittlichen kausalen Effekt entsprechen --> wir brauchen: Kovariaten, die zu Gruppenunterschieden führen und das Outcome beeinflussen 

bedingte MWUnterschiede sind bei Kontrolle aller relevanten Kovariaten kausal interpretierbar 

Adjustierung 

die nun unverfälschten Gruppen Ergebnisse dann wieder aggregieren: Durchschnitt bilden und dabei für die ungleiche Verteilung der Kovariaten korrigieren (Erwartungswert über gruppenspezifische Effekte) 

E(PFE_Z) = E(E(Y/X)=1,Z) - E(Y/X=0,Z))

Erwartungswert über die bedingte PFE (=Summe der gruppenspez.PFEZ=z gewichtet mit der unbedingten Wahrscheinlichkeit in Gruppe Z=z zu sein) 

P(Z=z) wird über Häufigkeitsverteilung der Kovariate in der GesamtSP geschätzt (nicht mehr gruppenspez) --> es wird für unterschiedliche Verteilung der Kovariaten in den Behandlungsgruppen korrigiert 

also Durchschnitt über die bedingte Effekte, gewichtet mit der GesamtSPWahrscheinlichkeit für die Gruppen, korrigiert für unterschiedliche Verteilung der Kovariaten 

Simpsons Paradox und Adjustierung 

Adjustierung ermöglicht den durchschnittlichen Effekt zu schätzen, indem für die ungleiche Verteilung der Kovariaten (hier Geschlecht) in den Behandlungsgruppen kontrolliert wird 

Adjustierung für andere Effekte als Simpson 

die unverfälschten gruppenspezifischen Effekte kann man nicht nur zum ATE sondern auch anderen gruppenspezifischen Effekten und dem ATEX=x aggregieren 

-->jetzt nicht nur für alle Perosnen adjustieren sondern gruppenspezifisch (Treatments vs Control) 

E(PFE_Z/X=x) = E(E(Y/X = 1,Z) - E(Y/X = 0,Z)/X =x) 

Erwartungswert über die bedingte PFE (=Summe der gruppenspez PFEZ=z gewichtet mit der Wahrscheinlichkeit in Gruppe Z=z zu sein, Go X=x) 

-->P(Z=z/X=x) wird über Häufigkeitsverteilung der Kovariate in der Behandlungsgruppen geschätzt-->ist die Zusammensetzung der Behandlungsgruppen und der Effekt der sich für solche Personen ergibt 

-->IM QUASIEXPERIMENT BENÖTIGEN WIR ADJUSTIERUNG (Experiment reichen einfach MWunterschiede) 

Effektschätzer 

geben an, wie man die verschiedenen Effejte in der Praxis schätzen kann 

 

Effektschätzer im Experiment 

wenn keine systematische Unterschiede, kann man Gruppen einfach vergleichen --> t-Test bei zwei Gruppen oder ANOVA wenn mehr (Mittelwertsvergleiche) 

Lineare Verfahren: t-Test und Varianzanalyse

Interaktion: mehrere unabhängige Variablen--> nach Multikolinearität überprüfen 

geschätzte Effejte sind hier unverfälscht und kausal interpretierbar 

Effektschätzer im Quasi-Experiment (ANCOVA)

im Quasiexperiment braucht es verschiedene Adjustierungen, da keine zufällige Zuteilung und dadurch systematische Unterschiede zwischen Gruppen 

Methoden zur Adjustierung: 

- Kovarianzanalyse (ANCOVA): wie sagen verschiedene Kovariaten die AV mit hervor. --> Interpretation adjustierter MWunterschiede 

--> Effekt des Treatments auf AV, kontrolliert für Kovariaten --> wie beeinflussen Kovariate das Ergebnis? 

-->xdurchschnittliche Effekte der Behandlung ausrechenen durch Vgl adjustierter MWUnterschiede --> traditionell ohne Interaktion berechnet und somit ohne gruppenspezifische Effekte --> Erweiterungen wie generalisierte ANCOVA (Interaktion- und Gruppenspez Effekte zugelassen) 

 

Effektschätzer im Quasiexperiment (Propensity Score)

wie sagen verschiedene Kovarriaten die Zuordnung zur Behandlungsgruppen hervor? --> Gruppen vglbar machen und dann einfachen MWUnterschied rechnen 

Wahrscheinlichikeit an einer Behandlung teilzunehmen wird noch modelliert und dafür kontrolliert man dann 

PS Matching: Personen mit ähnlichem Score (und aus unterschiedlichen Gruppe) Matchen --> MW vgl

--> Vorteil: simuliert nachträglich eine Art randomisierung 

EInfluss von z in der statistischen Analyse miteinbeziehen (statistische Kontrolle) va bei metrischen Variablen 

bezieht sich auf alle Kovariaten (Auswertung/Vgl von zwei Gruppen) 

PS: zusätzliche Variable, die sich auf alle Variablen bezieht (Einfaktorielle fallen weg, da wir Störvariabelen und mehrere UV haben) 

PS ist Zuordnungsmodell (KOvariaten vorab durch best Zuordnung kontrolliert)

Kovarianz-Adjustierung ost Outcome-Modell (Kovariaten erst bei statistischer ANalyse kontrolliert) 

Wiederholungsmessungen 

2 MessZP: Vortest-Nachtest-Vergleichsgruppenplan 

3 Ansätze um den kausalen Effekt dieser Messung zu schätzen (Kovariatenauswahl; Regression Discontinuity Design; Vorhersage von Differenzen = Veränderungsanalyse) 

Wiederholungsmessung mit Kovariatenauswahl 

ANCOVA 

E(Nachtest/X,Z) mit Z= Vortest, weitere Kovariaten 

Nachtest-Wert vorhersagen (Kontrolle des Vortestwerts)

-->Schätzung des Effekts von Treatment, nachdem wir den Einfluss von Vortest und Kovariaten ausgerechnet haben 

Im Quasiexperiment: Adjustierung wichtig: Kovariaten immer zu t1 erhoben --> Vortestung des Outcomes kann als Kovariate dienen 

-->Adjustierungsmethoden sind nur so gut wie die Auswahl der Kovariaten 

-->relevante Kovaraiaten VOR Treatmentzuweisung erheben 

--> Vortest typischerweise sehr wichtige Kovariate 

OUTCOMEANALYSE

Wiederholungsmessung Regression Disconinuity Design 

E(Nachtest/X als Gruppe, Vortest = Cut Punkt)

Treatment wird nicht zufällig zugeteilt, sondern basierend auf dem Vortestwert (zB nur wer unter bestimmten Schwellenwert liegt, bekommt Treatment) 

-->Cutoff trennt Gruppen (recht willkürlich; Personen knapp drunter/drüber sollten sich nicht viel unterschieden-->zeigt Effekt des Treatments) 

Vortest: Zuweisung zur Intervention anhand metrischer Variable wie dem Vortest zB allen Bedürftigen Peronen den Zugang zur Intervention zu ermöglichen; vorher festgesetzter Cutoff Score (zB MW) entscheidet --> local randomization 

Annahme: bei der Gruppe, die das Treatment erhält soll sich etwas ändern, während ohne Treatment Zusammenhang Vortest-Nachtest stabil 

++ Annäherung an Experiment; auch bei kleinen SP möglich 

-- Abhängig vom Cut Punkt; bedingte Effekte an anderen Punkten können sich bei Interaktion Vortest mit Treatment unterschieden 

OUTCOMEANALYSE

Wiederholungsmessung Vorhersage von Differenzen 

E(Nachtest-Vortest/X,Z) mit Z = weitere Kovariaten 

man berechnet für jede Person die Differenz zwischen Nachtest und Vortest (Lernzuwachs) 

dann Vgl durchschnittliche Differenzen in Treatment vl Kontrollgruppe (dabei weitere Kovariaten (Z) kontrollieren)

-->Differenzen zwischen Nachtest und VOrtest als Indikator für Treatment Wirkung D=YNachtest - YVortest 

-->es interessiert die Veränderung über die Zeit (Fragestellung hier ander) 

VERÄNDERUNGSANALYSE

Herausforderungen bei Veränderungsanalysen 

1. Konstruktäquivalenz von Vortest und Nachtest (so konstruiert dass selbes Merkmal gemessen?)

-->gleiche Eigenschaft, Situationsabhängigkeit, Lerneffekte, Kontrolle der Messvarianz möglich? 

2. Reliabilität von Differenzen (Varianz einer Messung vs Varianz von Differenzen 

-->Alternative: Veränderungsmessung im Rahmen probabilistischer Modelle (True-Score und Messfehler) 

ACHTUNG: auch wenn jeder Test einzeln relativ reliabel ist, kann die Differenz eine viel schlechtere Reliabilität haben (Messfehler von VortestX und NachtestY enthalten)

->Lösungen: Reliabilität der Messung oder der Differenz erhöhen (mehrere Vor- und Nachtests ->mitteln und dadurch Messfehler senken); Kontrolle des Messfehlers mit latenten Modellen (explizit ausrechnen) 

3. Regression zur Mitte

nach extrem ausgefallenen Messwert, liegt die nachfolgende Messug wieder näher am Durchschnitt, falls Zufall einen Einfluss auf die Messgröße hat 

kann Ergebnisse verzerren, wenn man nur die Extremgruppen Vgl ohne für Messfehler ´/ Zufallsschwankungen zu kontrollieren 

Mehrere Messzeitpunkte (als 2)

man kann ZP zusammenfassen und Merkmale genauer erheben (mehrere Vor und Nachtests) 

oder Verläufe über die Zeit anschauen 

Messwiederholungsmodell mit der Modellierung der Zeit selbst als unabhängige Variable (E(Tests/Zeit)--> verschiedene Ansätze, um zeitliche Entwicklung zu mehreren MZP zu modellieren) 

1. Messwiederholungs ANOVA 

2.Hierarchische Modelle als Erweiterung der Varianzzerlegung 

3. Strukturgleichungsmodelle 

Mehrere MZP - Messwiederholungs ANOVA 

Personenabhängige Varianz: Bereinigung des Fehlers des Zeitpunkts

Persnenabhängige Varianz: STreuung zwischen Prä-, Post-, Follow up 

Long Format: Fehler -->Vgl zwischen ZP (Variabilität zwischen Personen) 

Wideformat: kein Fehler, nur über die Zeit, nur eine Person, sondern kein Vgl zwischen Personen (unterschiedliche ZP innerhalb gleicher Person--> Variabilität von Person über Zeit) 

 

Mehrere MZP - Hierarchische Modelle als Erweiterung der Varianzzerlegung 

Welcher Anteil der Varianz in den Messungen kann durch unterschiede der ZP erklärt werden und welcher Anteil durch Personenunterschiede 

Zwei Ebenen 

Mehrere MZP - Struktugleichungsmodelle

Latent- State-Modell: jederMZP hat latenten Faktor, der den wahren Wert der gemessenen VCariable repräsentiert. Einzelne Items Yij sind Indikatoren für den latenten Zustand zur entsprechenden Zeit --> Zusammenhang darin, dass diese latenten Faktoren korreliert sind 

Latent-Change-Model: latente Faktoren geschätzt, ABER latente Änderungskomponenten modelliert--> erlaubt Schätzung Chnage Score 

Wofür wiederholte Messungen 

um Ausgangswerte zu kontrollieren 

Ausgangswerte zu benutzen um die Behandlung den Bedürftigen zukommen zu lassen 

Veränderung analysieren 

Konzeptuelle Replikation 

Replikation vergleicht Befunde aus mindestens 2 Studien 

fokussieren häufig darauf, dass methodische Vorgehen in einer Originalstudie zu wiederholen, können aber auch zur Untersuchung der Generalisierbarkeit genutzt werden 

es geht darum auf Basis unterschiedlicher Datengrundlagen wissenschaftliche Befunde zu bestätigen 

(Abweichungen in methodischem Vorgehen und Software für die Generalisierbarkeit --> konzeptuelle Replikation) 

Am besten prospektives Design und Kovariaten kontrollieren mit unterschiedlichen Ansätzen 

Arten von Replikationen 

Reproduce: Alle Ergebnisse sollten reproduzierbar sein (gleiche Analyse mit gleichen Daten sollten gleiches Ergebnis erzeugen) 

Robust: Ergebnisse sollten robust ggü verschiedenen Analysemethoden sein 

Replicate: Studie nochmal durchführen --> sollte gleiches Ergebnis geben 

Gründe für dniedrige Relikationsrate 

Fragwürdige Forschungspraktiken 

Probleme von Signifikanztests 

Powerprobleme 

Messfehler 

Publikationsfehler 

Zwei mögliche Inferenzen bei der Replikation 

Stichprobenfehler (von SP wird nämlich auch Population geschlossen) 
Störeinflüsse (von Population wird auf kausale Effekte geschlossen) 

Causal Replication Framework 

basiert auf potential outcomes Framework für kausale Inferenz (Rubin) 

Replikation als Forschungsdesign, das prüft, ob 2 oder mehr Studien innerhalb der Grezen des SPFehlers denselben kausalen Effekt erzeugen --> geschätzter kausaler Effekt bleibt in unterschiedlichen Kontexten und Studien "gleich genug", solange die Annahmen erfüllt sind 

Annahmen für eine Studie (wichtig für Replikation) 

S1: Unverzerrte Effektschätzung: Das Design erlaubt eine kausale Interpretation (Randomisierung bsp) 

S2: Unverzerrte Schätzungder Effekte: keine systematische Verzerrung durch Messfeler etc. 

S3: Korrekte Berichterstattung: keine Fehler in der Publikation, unreproduzierbare Dokumentation etc 

Annahmen über mehrere Studien: 
R1: Treatment- und Outcome-Stabilität: Das Treatment und der Outcome sind im Prinzip gleich zwischen den Studien 

R2: Äquivalenz der Kausalstruktur: Das zugrunde liegende kausale Modell (was wirkt wie) bleibt gleich 

Causal Replication Framework - Arten der Replitaktion 

statistische Replikation

Versuch alle CRF Annahmen zu gewährleisten (R1,R2, S1, S2, S3)

Einfluss des SPFehlers auf Replizierbarkeit eher nicht von Interesse 

Direkte Replikation

Versuch die Replikationsannahmen zu gewährleisten (R1,R2) und die individuellen Studienannahmen systematisch zu variieren (S1, S2, S3) 

Einfluss der Analysemethode, des Studiendesigns oder des selektiven Berichtens auf die Replizierbarkeit --> Robustness - Evaluation der Methoden Umsetzung von Studien 

Konzeptuelle Replikation: 
Versuch die individuellen Studienannahmen zu gewährleisten (S1,S2,S3) und die Replikationsannahmen systematisch zu variieren (R1,R2) 

Einfluss der Variationen im Treatment oder Outcome, aber auch in Population oder im Setting auf die Replizierbarkeit --> Generalisierbarkeit - Evaluation der Heterogenität des Effekts durch Studienimplementierung 

Post-hoc Design 

Wiederholung von bereits publizierten Studien (ypisches Vorgehen in aktuellen Replikationsstudien) 

Vorteile: Veröffentlichte Befunde können von unabhängigen Forschergruppen überprüft werden 

ABER kaum möglich alle Studiencharakteristiken konstant zu halte 

Prospektives Design 

Gleichzeitige Plaung und Druchführung von Original und Replikationsstudie 

Vorteile: es können möglichst viele Aspekte zwischen den Studien konstant gehalten werden (alle Störeinflüsse) und es können bestimmte CHarakteristiken zwischen den Studien gezielt variiert werden (Replikationsfaktor R) 

ABER die Unabhängigkeit der Durchführenden ist schwer möglich (weil gleiche Personen beide Studien durchführen) 

Correspondence Measure 

Erwartet wird: Äquivalenz in exakten/ direkten Replikationen und Differenz in konzeptuellen Replikationen

conclusion-based Measures: Übereinstimmung in Richtung und Größe des Effekts (ohne Inferenzstatistische Absicherung); Übereinstimmung in der Signifikanzmuster der einzelnen Studien 

difference- based Measures: differece Test, um den Unterschied der Studien zu testen; Equivalence Test, um die Übereinstimmug der Studien zu testen mit einer selbst festgelegten Schwelle (H1:Differenz kleiner als Schwelle)  

Forschungssynthese 

Zusammenfassung wissenschaftlicher Erkenntnisse aus thematisch verwandten Untersuchungen mithilfe wissenschaftlicher Methoden und Vorgehensweisen 

Literaturreviews

Metaanalysen 

Forschungssynthese Trichterprinzip

Zusammenfassung wissenschaftlicher Ereknntnisse aus thematisch verwandten Untersuchungen mithilfe wissenschaftlicher Methoden und Vorgehensweisen 

Überblick über Einzelstudien zu einem Thema 

Große Datenbasis 

Aufdecken vermeintlich widersprüchlicher Erkenntnisse 

Diskussion von Einflussfaktoren 

--> zb Wirksamkeit einer Intervention wie Achtsamkeitstraining 

Studien unterscheiden sich oft (keine Replikationsstudien) 

- Inhaltlich (SPzusammensetzung; Durchführung; Rahmenbedingungen etc) 
- Statistisch (Analysestrategien, Power; Analysesoftware)

- Studiendesign (Experimentell; Quasi; Regression discontinuity) 

- Messtheoretisches Vorgehen (Messinstrumente mit verschiedener Reliabilität) 

Literaturreviews 

typischerweise qualitative Analyse  aus der Literaturbasis hinsichtlich einer bestimmten Fragestellung 

strukturierte, kategorienbasierte Zusammenfassung des aktuellen Forschungsstandes und inhaltliche Bewertung der Primärstudien 

Metaanalysen 

typischerweise quantitative Analyse auf Literaturbasis hinsichtlich Ergebnisse 

Statistische Aggregierung der Ergebnisse als Zusammnfassung der Erkenntnisse aus Primärstudien 

PRISMA Kriterien 

klare Vorgehensweise bei der Zusammenstellung der Datenbasis 

Datenbasis bestimmt maßgeblich die Güte der Zusammenfassung (ggf multiple Suchstrategien) 

je nach Zielsetzung unterschiedliche Auswertung der Datenbasis möglich 

Literatur-Review 

wie läufts ab 

1. Design und Zieldefinition  (zb Protokoll)

2. Durchführung Literatursuche (zb Suchstring und Datenbanken) 

3. Datenzusammenstellung und Datenauswertung (zb Kodierung Studienmerkmale) 

4. Berichtlegung(zb relevante Merkmale diskutieren) 

Study