Methoden

Methoden der Statistik oder so

Methoden der Statistik oder so


Set of flashcards Details

Flashcards 145
Language Deutsch
Category Psychology
Level University
Created / Updated 10.09.2025 / 10.09.2025
Weblink
https://card2brain.ch/cards/20250910_methoden?max=40&offset=40
Embed
<iframe src="https://card2brain.ch/box/20250910_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Signifikanztest nach Neyman und Pearson 

1. Stelle Hypothese auf, die widerlegt werden soll H0 

2. stelle dazu komplementäre Alternativhypothese auf, sodass alle Fälle, die eintreten können, abgedeckt sind H1

3. Lege Risiken für Fehler erster Art und Fehler zweiter Art fest (Effektstärke; Sensotivtät; Spezifität; SPGröße) 

4. berechne p-Wert: Wahrscheinlichkeit, die Prüfgröße vor vorliegenden SP (oder extremer) zu erhalten, für den Fall, dass H0 stimmt 

-->wenn p-Wert =< spezifiziertem Alpha, verhalte dich als wäre H1 richtig 

--> wenn p-Wert > spezifiziertes Alpha, verhalte dich, als wäre H0 richtig 

Statistisch inhaltlich bedeutsam? --> Effektstärke, und zB Cohens d für MWUnterschiede (standardisiertes Maß für die gesuchte SPstatistik) oder erklärte Varianz in der ANOVA 

Signifikanztest Neyman und Pearson - statistische Hypotehsen (und verschiedene Formen) 

 

statistische Alternativhypothese formuliert die (operationalisierte) Forschungshypothese (H1) 

(Operationalisierte Forschungshypothese formuliert mit Hilfe klar definierter theoretischer Konstrukte, sowie unter Angabe von deren jeweiliger Operationalisierung Zusammenhänge, Unterschiede und Veränderungen in den interessierenden Populationen) 

H1 wird durch komplementäre statistische Nullhypothese (H0) zur einem Hypothesenpaar ergänzt 

--> ungerichtete Hypothese: es besteht Zusammenhang/ Unterschied --> zweiseitiger Signifikanztest (zB H1:My=/ 0) 

-->gerichtete Hypothesen: es besteht negativer/positiver Zusammenhang; etwas ist größer/kleiner --> einseitiger Signifikanztest (zB H1: My>0) 

-->unspezifische Hypothesen: keine Größe des Zshg angegeben (zB H1: My>0)

-->spezifische Hypothesen: Größe des Zshg genannt (zB H1: My>0,3)

Signifikanztest Neyman and Pearson - Fehlerarten 

Fehler 1. Art: H0 fälschlicherweise ablehnen 

Fehler 2. Art: H1 fälschlicherweise ablehnen 

Vergleich Naymar&Pearson vs Fisher 

Ergebnis des Signifikanztests interpretieren: H0 abgelehnt

-->Neyman und Pearson H1 angenommen --> dadurch Handlungsanweisungen und Schlussfolgerungen 

Risiko tatsächlich vorhandenen Effekt zu übersehen 

--> Neyman und Pearson: A-Priori: Beta-Fehler und Teststärke vorher festgelegt 

-->Fisher: Beta-Fehler nicht vorher festgelegt 

inhaltlich bedeutsam? 

--> Neyman und Pearson höhere inhaltliche Bedeutunf als Fisher, weil konkrete H1

Psychologische Praxis der Signifikanztestung 

meist nach Neyman und Pearson 

ABER keine Powerberechnung --> Fehler 2. Art weitgehend ignoriert 

Kosten-Nutzen/ Risiko Abwägungen werden nicht vorgenommen (keine theoretischen Überlegungen zu dem Risiko, mit dem man Fehler 1. Art und Fehler 2. Art begehen möchte 

Was damit nicht geht:
Erkennen ob Teststärke/ Power zu gering 

Spezifitäts- und Sensitivitätsüberlegungen für die praktische Relevanz von Aussagen 

Inhaltliche Bedeutsamkeit der Ergebnisse zu überprüfen 

optimale SPGrößen zu ermitteln/ verwenden 

 

Teststärkenanalyse

Wahrscheinlichkeit, wenn es einen Effekt gibt, diesen auch zu finden (1-Beta) 

Abängigekeiten: 

-Teststärke (1-Beta) umso größer, je größer de Irrtumswahrscheinlicekit (weil Beta-Fehler wird durch größeres Alpha kleiner) und je größer Effektstärke und SPGröße 

--> je strenger ich bin also je niedriger ich Alpha setze umso größer ist Hürde für signifikanten Effekt 

--> niedrigeres Alpha --> weniger falsche Alarme (Fehler 1. Art) 

ABER man übersieht auch mehr echte Effekte -->höherer Fehler 2. Art  (Beta) 

-->geringere Teststärke 

Powerberechnung, Poweranalysen 

Mithilfe G-Power die Teststärke berechnen zb mit SPGröße, Effekttärke und Irrtumswahrscheinlichkeit (Alpha)

G-Power: MWVergleich 

Bild zeigt mögliche Herangehensweisen 

Chancen der Teststärkenanalyse 

Spezifität und Sensitivität 

diese verhalten sich komplementär zueinander 

Test eher sensitiv --> Screeningverfahren 

Test eher spezifisch --> operative Verfahren zu Diagnose 

Kompromiss --> ärztliche Gespräche 

Signifikanztests als Risiko-Nutzenanalyse 

bei ausreichend großem N (Standardfehler kleiner --> Test sensibler) 

oder entsprechend großem Effekt kann man auf geringem Niveau (niedriges Alpha Niveau) für Fehlererster und zweiter Art testen 

Bsp.: mit Prügeleien und 1000 000$ Intervention 

Stichprobenplanung 

Optimale Größe: so groß, dass signifikante Ergebnisse inhaltlich bedeutsam sind (darf also nicht zu groß sein) und inhaltlich bedeutsame Effekte auch signifikant werden können (darf nciht zu klein sein) 

SPUmfang anhand der gewünschten/ erwarteten Effektsrtärke, Alpha Niveau und Power ablesen/ selbst berechnen (G-Power) 

Erwarteter Effekt durch Literaturrecherche -->empirisch basierte Effektschätzungen; Vorstzudien; theoretische Implikationen auf Grund praktischer Relevanz 

je größer die SP, umso eher wird mein Test signifikant und desto größer ist Teststärke 

Powerberechnung - post hoc 

 

oft optimale SPgröße im Vorhinein nicht bestimmbar (weil Nutzung von vorhandenen Daten; keine Kenntnis über erwarteten Effekt; nur bestimmte Anzahl an VP rekrutierbar) 

also Power im Nachhinein berechnen--> wie hoch war die Wahrscheinlichkeit überhaupt einen Effekt zu finden 

wenn rauskommt SP zu klein --> Replikation mit mehr Teilnehmenden 

wenn rauskommt SP zu groß --> berichten und interpretieren der Effektgrößen; Testen an einer spezifischeren Hypothese; --> Minimum-Effekt Hypothesen 

Bedeutungslose Nullhypothesen und Minimum-Effekt Hypothesen als Ausweg 

null Hypothese testen wird eigentlich immer signifikant --> Signifikanz sagt nur, dass was da ist aber nicht wie groß --> Effektstärke um zu sagen ob Effekte bedeutsam 

-->minimum-Effekt Hypothese als modifizierte Nullhypothese 

Minimum- Effekt Hypothese 

Implikation der Varianzaufklärung in der H0 (--> welche Effekte können vernachlässigt werden) 

spezifischer Wert der Nullhypothese ist Anteil der Varianzaufklärung 

-->Murphy und Myros: minimal Effekt von 1% (H01) oder 5% (H05) --> wenn Nullhypothese dann abgelehnt, geprüfter Effekt klärt mehr als 1/5% Varianz auf --> nennt sich Nil-Nullhypothese 

Bestätigung von Nullhypothesen

ein nicht-signifikantes Ergebnis kann als Beleg für die Richtigkeit von H00 akzeptiert werden , 

WENN Beta-Fehler Risiko für diese Entscheidung bekannt und ausreichend gering ist (zb Beta=0,05) und 

WENN für Alternativhypothese ein kleiner zu vernachlässigender Effekt festgelegt wird (normalerweise kan H00 NICHT verifiziert werden)

Bsp für Nullhypothesen als Wunschhypothesen 

MW Differnzen: Man will zeigen, dass zwei Behandlungen gleich wirksam sind --> will keinen signifikanten Unterschied finden 

Korrelationen H0 = keine Korrelation (r=0)

X^2 Test auf Normalverteilung: H0 = "Daten sind normalverteilt"

Modellgeltungstests: H0= "Das Modell passt zu den Daten"

Hypothesentesten mit Bayes-Statistik 

mit Bayes können beliebeig viele Hypothesen verglichen werden

Bayesianische Inferenz 

- über Bayes Theorem lassen sich Wahrscheinlichkeiten von Hypothesen aus beobachteten Daten ermitteln

- Wahrscheinlichkeiten der Hypothesen berechnen und dann vergleichen 

- Berücksichtigen beobachtete Daten und Vorannahmen 

-->Einfluss der Prioriverteilung wird umso geringer, je mehr Beobachtungen eingehen 

-->bei uniformativen/ diffusen Prior (Gleichverteilung, die keinen Unterschied zwischen den Hypothesen) zählen nur noch die Beobahctungen (wie im Signifikanztest) 

uniformative Prior ist unabhängig von Anwendungsfall einsetzbar (Standardoption in JASP)

Warum wurde Bayesianische Statistik bis vor kurzem so wenig angewendet?

Frequentistische Statistik ist mathematisch einfacher 

Freuqntistische Statistik wurde zur Gewohnheit 

Philosophische Gründe: Interpretation von Wahrscheinlichkeiten, wissenschaftliche Fragestellungen 

-->jetzt häufiger weil

- Computergestützte Methoden 

- Replikationskrise in den Sozialwissenschaften 

- "Questionable Research Practices" und Publikationsbias eng mit frequentistischer Statistik verbunden 

-->alternative statistische Ansätze als Weg aus der Krise 

Schritt für Schritt Zusammenhang bayesianischer Konzepte 

1. Prior Knowledge: Prior Distribution; Prior Model Probability/ Odds 

2. Prediction: Prior predicitve Distribution (Vorhersage auf GL Vorwissen) 

3. Daten: beobachtet 

4. Prediction Error: Vgl beobachtet und vorhergesagt --> Modellgüte 

-->Bayes Faktor: Verhältnis Likelihoods zweier Modelle; misst wie stark Daten ein Modell ggü anderem unterstützen; marginal Likelihood/Evidenzmaß: Wktn der Daten unter einem bestimmten Modell (wichtiger Bestandteil im Bayes-Faktor)

5. Knowledge Update: mithilfe Bayes`scher Regel wird Vorwissen aktualisiert -->neue Sicht auf Wktn 

--> Posterior Distribution; Credible Intervall; Posterior Model Probability/odds 

6. Zurück zur Prior Knowledge: Posterior wird zur Prior 

Interpretation von Wahrscheinlichkeiten 

Objektive Wkt: Wahrscheinlichkeit als relative Häufigkeit; Zufall als Attribut der Welt 

subjektive Wkt: Wkt als Grad der persönlichen Überzeugun; Zufall als Modell von Unsicherheit (-->neue Info kann Wahrscheinlichkeit verändern)

-->Bayesianische Statistik ist eher subjektiv (Prior ist subjektiv wählbar)

-->kann objektiv verwendet werden durch Standardisierung der Prior und rationale Argumentation 

Prior Distribution Sven Prior Model Probability 

Prior Distribution = innerhalb eines Modells 

Prior Model Probability = zwischen Modellen  

In Literatur meist Prior Distributions 

Meist angenommen, dass alle Modelle dieselbe Prior Model Probability haben 

Prior Modell odds 

Wahrscheinlicheitsverhältnis zwischen den Modellen

 

Vorhersagefehler: Marginal Likelihood/ Evidenzmaß 

P(x/M) 

Gibt an, wie plausibel die beobachteten Daten unter dem Modell sind 

Evaluation der Prior Predictive Distribution an der Stelle de Daten 

-->erwartete Wahrscheinlichekiten unter den verschiedenen Modellen 

 

Unterschied Likelihood und marginal Likelihood 

Likelihood ist Wahrscheinlichkeit der Daten gg bestimmte Parameterwerte. 

Marginal Likelihood (auch Modell-Wahrscheinlichkeit) ist die Wahrscheinlichkeit der Daten unter dem gesamten Modell, wobei über alle Möglichen Parameterwerte integriert wird.

Bayes Faktor 

gibt an, um wie viel wahrscheinlicher die Daten unter Modell 1 sind als unter Modell 2 

Grad relativer Evidenz für ein Modell 

vergleicht Likelihoods zweier Modelle ( Bayes Faktor über Marginal Likelihoods definiert) 

zB Bayes Faktor 10 --> Daten unter Modell 1 zehnmal wahrscheinlicher als unter Modell 0 (Alternativhypothese H1 im Zähler; Nullhypothese im Nenner -->erste Zahl ist Modell das bei positivem Bayes Faktor wahrscheinlicher ist) 

Bayes-Faktor Funktionsweise 

quantifiziert relative Evidenz für ein Modell 

Entscheidungskriterium: (Erstgenannte ist Alternativmodell)

- BF10 > 1 : Evidenz für Alternativhypothese #

- BF10 = 1: keine Evidenz 

- BF10 < 1: Evidenz für die Nullhypothese 

Überzeugugsgrad abhängig vom Kontext (wenn unbedingt hat Jeffreys eine Klassifikation)

Posterior Distribution 

Wkt der Daten nach der Datenerhebung 

-->Knowledge Update 

-->Berechnung mit Satz des Bayes (siehe Bild)

wenn man glaubt, dass Erfolgswahrscheinlichkeit einen bestimmte Form hat --> mit Beta-Verteilung ausdrücken

Credible Intervall

Highest Density Intervall --> umfasst 95% der Posterior Distribution mit der höchsten Wahrscheinlichkeitsdichte -->kann unsymmetrisch um MW sein 

 

Central Credible Intervall --> umfasst die zentralen 95% der Posterior Distribution (egal wie sie geformt ist)

Posterior Model-Probability p(M/X)

Prior Model Probabilities können einfach in Posterior Model Probabilities umgerechnet werden --> gg Daten kann man jetzt neue Wktn für Modelle ausrechnen 

Daten -->neue Wkt für Modell

Binomialtest 

liefert Likelihoods die ich für Bayes-Faktor brauche

1. Hypothesen formulieren H0 und H1

2. Hypothesen auswählen und Prior festlegen (für H0 Spike Prior und für H1 ein Beta)

6. Ergebisse interpretieren 

Savage-Dickey Denisity Ratio 

aufgrund Integrals einer Marginal Likelihood ist Bayes Faktor oft mathematisch schwierig zu berechnen 

-->Savage Dickey Density Ratio 

Wenn M0 und M1 geschachtelte Modelle, und M0 Spike Prior auf Theta, entspricht Bayes Faktor dem Quotienten der Wahrscehinlichkeitsdichten der Prior Distribution und Posterior Distribution an Stelle der Spike Prior 

Bayesianischer t-Test für unabhängige SP

1. Hypothesen formulieren: H0 und H1

2. Hypothesentest auswählen und Priors festlegen: Prior auf Delta unter H0: Spike Prior auf 0; Prior auf Delta unter H1: Trunkierte Cauchy-Distribution (t-Verteilung mit 1 Freiheitsgrad. Breitere Enden der Verteilung) mit Lageparameter 0 und Scale Parameter 0.707

6. Ergebnisse interpretieren: Posterior Verteilung deutlich schmaler als Prior; Wahrscheinlichster Wert: Parameter von 0

Idee der Bayesianischen ANOVA 

5. Hypothesentest durchführen

Vgl linearer Modelle(Nullmodell, Modell mit Haupteffekt 1; Modell mit Haupteffekt 2; Modell mit Haupteffekt 1+2; Modell mit Haupteffekt 1+2 und Interaktionseffekt)

Kritik am Signifikanztest

Je mehr Beobachtungen, desto erster signifikantes Ergebnis 

statistische Signifikanz ist keine scientific Signifikanz 

Eine für Ergebnis günstige Auswahl von Operationalisierungen und SPGrößen 

wenn p-Wert ber 5% weiß man eigentlich garnichts 

Wahrscheinlichkeit von Hypothesen beim SIgnifikanztest nicht berücksichtigt 

Wahrscheinlichkeit der Nullhypothese spielt keine Rolle 

Für Interpretation und Wissenschaft wichtig, ob Hypothese plausibel 

p-Wert im Signifikanztest ist Likelihood in der Bayes Statistik (Wahrscheinlichkeit dafür, dass Daten gefunden werden, gg Nullhypothese) 

Replikation

Wiederholung einer wissenschaftlichen Studie, um die Ergebnisse zu überprüfen und die Robustheit der Befunde zu testen. 

Ziel: feststellen, ob die ursprünglichen Ergebnisse auch unter ähnlichen oder leicht veränderten Bedingungen reproduziert werden können

Replikationskrise: viele Forschungsergebnisse in der Psychologie nicht replizierbar --> Zuverlässigkeit der psychologischen Forschung???

Studien mit größerem Effekt lassen sich besser replizieren 

Probleme mit Signifikanztests (Fluch des p-Wertes) 

Abwegige Idee: wenn man nach unwahrscheinlichen Effekten sucht, wird man sehr oft "zufällig" ein falsch-positives Ergebnis finden 

Münzwurf:wenn ein Effekt schon vorher relativ wahrscheinlich ist, dann ist ein signifikantes Ergebnis auch vertrauenswürdiger 

Fast sichere Sache: je wahrscheinlicher Effekt vorher ist, desto aussagekräftiger ist ein signifikanter p-Wert

Alternativen zum fälschlichen Gebrauch von SIgnifikanztests

Questionable Research Practices/ Empfehlungen (Open Science und Statistiker miteinbeziehen) 

Registrierung für konfirmatorische Studien (PreReg; berichten egal ob sign., wenn nicht dann explorativ ABER Signifikanztest macht nur Sinn bei konfirmatorischen) 

strikte Unterscheidung von Konfirmation und exploratorisch 

Effektstärken berichten (statt p-Werte) 

Evaluation 

Systenatische Bewertung: Evaluation als Bewertung, Bestimmung des Wertes

Evaluationsgegenstand: Objekt, das bewertet werden soll

Evaluationskriterium: Basis auf der der Gegenstand bewertet werden soll

-->Fokus auf Wirksamkeit: Designt und kausale Schussfolgerungen 

Evaluationsdesign 

Welche Maße erhebe ich zu welchem ZP um die Wirksamkeit zu beurteilen? 

--> Standard: Vortest-Nachtest-Vergleichsgruppenplan

1. Zielgrößen/ Outcomemaße; 2. Ausgangszustand; 3. Vergleichsgruppe 

sorgfältig konzipierte und durchgeführte randomisierte Experimente als Goldstandard 

Randomisierte Gruppen (durch Zufall zugeteilt) --> hohe interne Validität und Kausalität 

Effektgröße: Cohens d= 0.5, p < 0.01

Simpsons Paradox

nennt man eine Datenkonstellation bei welcher der MWVergleich in jeder SUbgruppe ein anderes Vorzeichen aufweist als in der Gesamtstichprobe 

zb sowohl für Mädchen als auch Jungen fallen Gruppenwerte negativ aus --> Gesamtwert aber positiv 

--> Wenn man die Gruppenunterschiede nicht berücksichtigt, kommt man zu verfälschten Aussagen im Gruppenvergleich 

 

Kausalitätstheorie 

Kausaler Effekt: Ursache-Wirkung-Beziehung

man benötigt eine Theorie, die kausale Effekte definiert und behandelt, wie man kausale Effekte schätzen kann --> verschiedene Ansätze 

-D.B. Rubin: Rubin-Caesar Model (RCM): Gedankenexperiment der potential outcomes for each treatment condition 

-R.Steyer: Theory of causal effects (TCE): formale Erweiterung von Rubin basierend auf Wahrscheinlichkeitstheorie 

-J.Pearl: Graphic Models (DAG): vollständige Zusammenhänge im DAG: Vorwissen causality in 

Study