Methoden

Methoden der Statistik oder so

Methoden der Statistik oder so


Fichier Détails

Cartes-fiches 39
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 10.09.2025 / 10.09.2025
Lien de web
https://card2brain.ch/cards/20250910_methoden
Intégrer
<iframe src="https://card2brain.ch/box/20250910_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Definition Population 

(Grundgesamtheit) 

Gesamtmenge aller Beobachtungseinheiten (N), über die Aussagen getroffen werden sollen. 

Werden alle Objekte einer Population untersucht, so spricht man von einer Vollerhebung 

Definition Stichprobe 

Eine Teilnenhe der Pooulation wird als Stichprobe (n aus N) bezeichnet. 

Wird nur ein Teil der Population untersucht so handelt es sich um eine Stichprobenerhebung 

Gründe eine SP zu ziehen 

Population ist unendlich groß (bsp Verbreitung stereotype in Tageszeitungen) 

Population nur teilweise bekannt (bsp Gesundheitszustand medikamentenabhängiger in Schweiz) 

Art der Untersuchung würde Population zu stark beeinträchtigen (Crashtests der gesamten Jahresproduktion eines Automobilherstellers) 

Untersuchung der gesamten Population zu aufwändig (Umfrage zu musikgeschmack Jugendliche EU) 

 

 

Repräsentationalität

Verteilung in SP sollte sich im besten Fall nicht von Vertrilung in Population unterscheiden, um möglichst gültige Aussagen machen zu können 

 

Arten von Repräsentationalität

Merkmalsspezifisch repräsentativ: SP entspricht Population in den für Untersuchung relevanten Merkmalen 

 

Global repräsentativ: SP in fast allen Merkmalen wie Population 

Coverage 

Die angestrebte Grundgesamtheit umfasst alle Elemente, über die Aussagen getroffen werden sollen (alle dies gibt)

Auswahlgesamtheit umfasst alle Elemente, die eine prinzipielle Chance haben, in eine SP zu gelangen (alle registrierten) 

Inferenz-Population wird mit einem Zuehungsverfahren tatsächlich erreicht (die die mitmachen) 

 

 

Undercoverage 

Elemente der angestrebten Grundgesamtheit sind nicht in der Auswahlgesamtheit enthalten 

Overcoverage 

Bestimmte Elemente haben höhere Wahrscheinlichkeit in SP zu kommen oder gehören nicht zur angestrebten Grundgesamtheit (bsp Wahl: die die nach Ziehung nciht mehr wahlberechtigt sind) 

Einfache Zufallsstichprobe 

Alle Elemente aus Population haben gleiche Ziehubgswahrscheinlichkeit 

Populationskennwerte/ Populationsparameter 

Anteil (relative Häufigkeit) = pi 

Arithmetischer Mittelwert = my 

Standardabweichung (Streuung) = Sigma 

Varianz = Sigma Quadrat 

 

Gütekriterien - Erwartungstreue 

Erwartungswert eines Schätzers entspricht genau dem wahren Parameterwert der zugrunde liegenden Population 

Schätzer ist erwartungsgetreu wenn der durchschnittliche Wert des Schätzers über unendlich viele SP gleich dem wahren Populationswert ist 

Gütekriterien - Konsistenz 

Bedeutet, dass Schätzer mit wachsendem SP Umfang immer näher am wahren Parameterwert liegt 

Gütekriterien - Effizienz 

maß dafür wie gering die Varianz eines Schätzers im Vgl zur Varianz anderer erwartungstreuer Sxhätzer für denselben Parameter ist 

Effizienz charakterisiert Genauigkeit der Parameterschätzung 

(Effizient wenn Varianz also Streuung klein) 

Gütekriterien - Suffizienz 

Schätzwert der alle Infos die die SP über einen bestimmten Populationsparameter enthält, vollständig zusammenfasst -> keine weiteren datenmerkmale nötig 

Schätzmethoden (Punktschätzer)

Kleinste Quadrate: Summe der Abweichungsquadrate der beobachteten und verhergesagten Y-Werte soll minimal sein 

Maximum Likelihood: gibt an in welcher Parameterausprägung die vorliegenden Daten am wahrscheinlichsten wäre 

 

Intervallschätzer

Ein Verfahren das Grenzen ermittelt, innerhalb derer scih der wahre Populationsparameter mit hoher Plausibilität befindet (Konfidenzintervall) 

 

Konfidenzintervall 

ist Wertebereich, der den gesuchten Populationsparameter mit einer vorab definierten Wahrscheinlichekit beinhaltet 

ist abhängig vom Standardfehler (welcher von Standardabweichung und SPGröße abhängig ist) 

beziehen also SPVerteilung mit ein 

können sowohl als exploratives Verteilungsmaß als auch als weiterführender Signifikanztest verstanden werden

Zentrales Grenzwerttheorem 

die Verteilung von Mittelwerten auf SP des Wmfanges n, die einer beliebig verteilten Grundgesamtheit entnommen werden, ist normal, vorausgesetzt, n ist genügend groß

SPArten- Probabilistisch  

Ziehungswahrscheinlichkeit ist bekannt

Selektion mittels objektiven Zufallsmechanismus 

Rückschlüsse auf Population sind zulässig 

Elemente müssen bekannt sein 

ggf aufwändig 

SPArten - nciht probabilistisch 

Ziehungswahrscheinlichkeiten unbekannt 

Selektion mittels subjektiven Kriterium (zb Verfügbarkeit) 

Rückschlüsse nicht zulässig/ nicht generalisierbar 

Häufig ökonomischer 

SPArten - Ad-hoc 

nciht zufällig ausgewählt sondern auf GL bestehender Gelegenheit und Zugänglichkeit erstellt 

aus freiwilligen Proband*innen  --> Gelegenheitsstichprobe 

oft bei (Quasi)Experimenten 

möglicher systematischer Unterschied von SP zu Population 

SPArten- Theoretische SP

gezielte Auswahl von Elementen nach theoretischen Gesichtspunkten

Auswahl eines spezifischen Elements, welches bestimmte Merkmale trägt, steht ińm Vordergrund 

häufige SPziehungsart bei qualitativer Forschung (zB Interviews) 

 

SPArten- Quotenstichprobe 

durch vorher definierte Quoten hinsichtlich bestimmter Merkmale gebildet. 

Merkmal, nachdem Quoten gebildet werden, sollte mit interessierenden Variablen korrelieren

Innerhalb jeder Quote wir GelegenheitsSP gezogen

Ziel ist es, die Zusammensetzung der SP hinsichtlich ausgewählterMerkmale den Populationsverhältnissen durch bewusste Auswahl "passender" Objekte anzugleichen

--> keine Zufallsauswahl --> keine Verallgemeinerung möglich 

--> Statistische Werte wie Standardfehler dürfen nicht interpretiert werden 

spätere Gewichtung der ad-hoc auch möglich 

Einfache ZufallsSP (probabilistische SP)

Jedes Element der Population muss bekannt sein und hat gleiche Ziehungswahrscheinlicheit --> repräsentativ 

Probleme: Selten jedes Element erfassbar; nicht jedes Element will mitmachen 

Bsp: 

Population: alle Arbeitnehmer in DE 

Auswahlgesamtheit: alle Sozialversicherten, die beim Finanzamt registriert sind 

Inferenzpopulation: Alle registrierten AN, die bereit sind teilzunehmen 

ZIehungsart: Alle Sozialversicherungsnummern in eine Liste --> zufällig n Nummern ziehen 

 

Einfache ZufallsSP- KlumpenSP 

Verfahren, bei die die Population in natürliche, sich nicht überschneidende Gruppen (Klumpen) unterteilt ist (zb Schulklassen). Anschließend zufällige Auswahl dieser Klumoen ziehen, und alle Elemente innerhalb der ausgewählten Klumpen vollständig untersuchen 

--> ökonomisch (Zeit) 

--> Population muss aus Subpopulationen bestehen, die gesamte Population vollkommen abdecken 

--> muss Liste aller Subpopulationen geben (müssen nicht alle Elemente bekannt sein) --> Jedes Element darf nur einem Klumpen angehören 

Probleme: Klumpen sollten keine Klumpenspezifische Besonderheiten aufweisen-->selten; Klumpen in sich möglichst heterogen und zwischeneinander möglichst homogen-->selten 

 

MW Schätzung: Berechnung Klumpenmittelwert; Berechnung Gesamtmittelwert; GesamtMW nur dann erwartungstreuer Schätzer für Populationsparameter, wenn einzelne Klumpen ZufallsSP der Gesamtpopulation darstellen und Klumpen gleich groß sind 

Standardfehler: da Klumpen vollständig erhoben-->frei von SPfehlern; Standardfehler basiert auf Varianz ZWISCHEN den Klumpen (abh vom Abstand der Klumpenmittelwerte vom GesamtMW); je homogener KlumpenMW, desto kleiner Standardfehler 

Einfache ZufallsSP- Geschichtete SP

Alle Elemente der Population werden entsprechend eines Merkmals zunächst in mehrere SP aufgeteilt --> Zielpopulation auf Basis einer oder mehrerer Merkmale in Teilpopulationen einteilen (pro Merkmalsausprägung dann Teilpopulation) 

Merkmal der Schichtung sollte mit untersuchten Variablen zusammen hängen 

aus jeder Schicht eine einfache ZufallsSP ziehen 

alle Elemente (inkl. Merkmal nach dem geschichtet) müssen bekannt sein 

--> sozioökonomische Daten wie Alter, Geschlecht etc. 

Größe der Schichten kann gewählt werden 

Schichten in sich homogen; zwischeneinander heterogen 

Probleme: bei disproportionalen Schichtung kommt es zur Über-/ Unterrepräsentierung einzelner Schichten --> muss gewichtet werden 

MW: GesamtMW ist gewichtete Summe der EInzelMW; Gewichtung abhängig am Anteil der SchichtSP am GesamtSPUmfang; GesamtMW kannn nur erwartungstreuer Schätzer für Populationsparameter sein, wenn Elemente der Schichten jeweils zufällig ausgewählt wurden

Standardfehler: jede Schicht stellt einfache ZufallsSP dar ->Gesamtstandardfehler Gesamtstandardfehler basiert auf Standardfehlern der einzelnen Schichten-->Gesamtstandardfehler wird anhand desselben Gewichtungsfaktors g_j wie der Mittelwert geschätzt; Genauigkeit abhängig von davon, welchen Anteil Schichten jeweils an GesamtSP haben und wie groß ihre Varianz ist; -->Verbesserung der Schätzgenauigkeit ggü einfacher Zufallsauswahl, wenn Varianzen in Schichten kleiner als in GesamtSP; Schichten in sich möglichst homogen 

Verbesserung der Schätzgenauigkeit, wenn Varianzen in Schichten kleiner 

Schichtungsmerkmale: gleiche Aufteilung: SP je Schicht gleich groß; Proportionale Aufteilung: SPUmfänge im gleichen Verhältnis zueinander wie entsprechende Teilpopulation-->SP ist selbstgewichtend ; Optimale Aufteilung: Auswahl Schichtgrößen "nach Bedarf"-->Streuung des SPMW reduziert sich durch geeignete Auswahl der Schichtgrößen 

Gewichtung: GesamtMW der stratifizierten SP ohne Gewichtung und mit Gewichtung --> Person aus kleiner Schicht kriegt höheres Gewicht, Person aus größerer Schicht niedrigeres --> jeder geht mit gleicher Gewichtung in die Berechnug ein --> SP dann wieder repräsentativ

-->Bsp Gruppen mit höherer Heterogenität brauchen größere SP

Einfache ZufallsSP - Mehrstufige SP

Kombination aus Klumpen und geschichteter SP 

schrittweise Ziehung einer SP 

Sinnvoll, wenn Strukturen der Population komplex sind oder einzelne Klumoen zu groß 

sowohl mehrmalige Durchführung einer ZIehungsart als auch Kombinieren verschiedener Ziehungsarten 

-->beliebig viele Ziehungsschritte 

Bsp: PISA Schichtung nach Schulform und Bundesland; Ziehung Schulen (Klumpen); Ziehung von 15-jährigen SuS 

Zweistufig: Wohngemeinschaften ziehen --> Mitglieder ziehen 

dreistufig: Gymnasien --> Schulklassen --> SuS

Probabilistische SP

Einfache Zufallsstichprobe 

Geschichtete Stichprobe 

Klumpenstichprobe 

Merstufige Stichprobe 

nicht probabilistische SP 

da-hoc-Stichproben 

theoretische SP

Quotenstichprobe 

Stichproben im überblick 

siehe Bild 

Parameterschätzung mit Bayes-Statistik 

PaStichprobeninformationen (Resultat SPuntersuchung) und Vorwissen der Forschenden integriert 

berücksichtigen: beobachtete Daten; Vorinformationen der Forschenden 

Bayes-Statistik kombiniert Vorwissen mit Daten und Frequentisten (ggü klassische Statistik mit Hypothesenüberprüfung, Signifikanztest, Konfidenzintervalle) 

-->vorab angenommene "subjektive" Glaubwürdigkeit vl. Erwartungswert über theoretisch unendlich viele unabhängige Wiederholungen 

Grundidee der Parameterschätzung mit Bayes 

P(B/A): Likelihood (Wahrscheinlichekit von Daten, gg einer gewissen Hypotehse

P(A): Prior: Wahrscheinlichekit für Hypothese

P(A/B): Posterior: Wahrscheinlichkeit für Hypothese, gg Daten 

P(B): Subjektive Wahrscheinlichkeit, dass Daten auftreten 

 

Bayes-Theorem 

inversive Wahrscheinlichkeiten berechnen anhand von bedingten Wahrscheinlichkeiten 

B beobachtet --> wie wahrscheinlich dann A

Bbeobachtet --> wie wahrscheinlich Hypothese H 

--> Bestimmung der bedingten Wahrscheinlichekit des Ereignisses A unter der Bedingung B 

Sensitivität: Wie groß ist Wahrscheinlicheit der Erkrankung bei positivem Test p(A/B)

Spezifität: Wie groß ist Wahrscheinlichkeit gesund bei negativem Test p(kein A/kein B) 

Bayes: Priorverteilung 

Zusammenfassung des Wissens und der  Annahmen der Forschenden vor der Datenerhebung 

aus vorgegangenen Untersuchungen, Expertenwissen. Literaturrecherche etc 

wenn keine Vorannahmen --> pragmatische Überlegungen (Gleichverteilung)

Auswahl Prior- Verteilung va bei kleineres SP entscheidend; bei zunehmender SPGröße nimmt Einfluss der Daten zu und Einfluss der Vorannahmen ab 

Prior-Verteilung sollte nicht die Daten dominieren durch zb stringierte Vorgaben 

 

wann bayesianischer Hypothesentest das Gleiche wie Signifikanztest 

wenn bei größerer SP der EInfluss der Prior abnimmt oder bei uniformativer Priorverteilung, weil dann nur noch der Einfluss der Daten relevant ist 

Parameterschätzung mit Bayes-Ansatz 

Wahrscheinlichkeit für Daten, gg Hypothese p(D/H) = Likelihood 

Wahrscheinlichkeit, dass die Hypothese gilt, gg Daten p(H/D): Hypothese verwerfen --> Nullhypotehse verwerfen = Posterior 

Wahrscheinlichkeit für Hypothesen (Prior-Wahrscheinlichkeit) p(H): Wahrscheinlichkeit von Nullhypothese auf 1 setzen, alle anderen Hypithesen werden ignoriert --> dir Gleichverteilung über alle Hypothesen, bei zwei Hypothesen 50% bei jeder Hypothese 

Wahrscheinlichkeit für Daten p(D): Normierung, Wahrscheinlichkeitsverteilung über verschiedene Hypothesen (muss 1 ergeben) --> entweder Ausrechnen aus den Likelihood und Prior Wahrscheinlichkeiten/ Normeierung oder was ist die Wahrscheinlichkeit, dass die Daten auftreten? Subjektive Wahrscheinlichkeit, mit welcher man die Daten erwartet 

 

-->Bayes-Statistik: p(H/D) = p (D/H) * p (H) / p(D) --> immer links und rechts eine Hypothese einsetzen also mindestens 2 damit man das rechnen kann 

Likelihood

Wahrscheinlichkeit P(B/A_i) der beobachteten Daten unter Annahme des Modells 

benötigt Wahrscheinlichkeitsmodell (zB Binomialverteilung oder Multinomialverteilung für kategoriale Veriablen) 

 

Highest Denisty Intervalle 

schließen die mittleren 95% der Posteriori-Verteilung ein

können unsymmetrisch um MW liegen 

sind bayesianische Alternative zu Konfidenzintervallen 

wahrscheinlichste Intervall eines Parameters (zB MW, Effektgröße), gg beobachtete Daten und Vorwissen 

Konfidenzintervall ergibt sich aus Priori und Posterior WKT: x-Achse(Erwartungswert), y-Achse (Posterior- Wahrscheinlichkeit)

Wie funktioniert Parameterschätzung mit Bayes 

Vorwissen in Priorverteilung 

Ergebnisse der Untersuchung sind Likelihood 

--> zusammen dann Posteriori-Verteilung 

damit Parameter oder Hypothesen ermitteln

auch Glaubwürdigkeitsintervall oder MW/Modus der Verteilung 

wenn kleine SP --> kann geeignete Priorverteilung die Schätzung/ Testung erhöhen 

unterschiedliche Priorverteilungen können in Sensitivitätsanalysen miteinander verglichen werden (experimentelle Veränderungen) 

Uniformative Priorverteilungen sind auch möglich