Cartes mémoires Multivariate Statistik und Datenanalyse: Inferenzstatistik (Seite 2 von 2)

Cartes-fiches	70
Utilisateurs	11
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	18.01.2019 / 19.07.2024
Lien de web	https://card2brain.ch/box/20190118_multivariate_statistik_cnVo
Intégrer	<iframe src="https://card2brain.ch/box/20190118_multivariate_statistik_cnVo/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wann ist der t-Test robust gegenüber der Verletzung der Annahme auf Varianzhomogenität?

Bei gleich vielen Fällen in den Teilpopulationen ist der t-Test robust gegenüber Verletzung dieser Annahme.

-> Häufigkeitsverteilung für eine Variable: table(dat$Variable)

t.test(iip_tot ~ gender, data=dat, var.equal = FALSE)

t-Test

Welch-Test

Levene-Test

Shapiro-Wilk-Test

Wie lässt sich die Grundannahme der Normalverteilung eines t-Tests prüfen?

Anzahl der Fälle in Teilpopulationen: n1 und n2 jeweils ≥ 30

graphische Prüfung: Quantile-Quantile-Plot

inferenzstatistische Prüfung: Levene Test

gleich viele Fällen in den Teilpopulationen (n1 = n2)

inferenzstatistische Prüfung: Shapiro Wilk Test

cohen.d(dat$iip_tot ~ das$gender, paired = FALSE, na.rm = TRUE)

Effektstärke: Cohen‘s d

Womit beschäftigt sich die Inferenzstatistik?

Beschäftigt sich mit der Frage, wie man aufgrund von Stichprobendaten auf Sachverhalte in einer zugrunde liegenden Population schließen kann („schließende Statistik“).

Was besagt der Zentrale Grenzwertsatz?

Die Stichprobenkennwerteverteilung der Mittelwerte nähert sich mit zunehmender Stichprobengröße der Normalverteilung an, unabhängig davon, wie das Merkmal in der Population verteilt ist.

Welches sind die 4 Gütekriterien der Parameterschätzung

Erwartungstreue: gegeben, wenn der Erwartungswert der Stichprobenkennwerteverteilung dem Parameter entspricht
Konsistenz: gegeben, wenn sich der Stichprobenkennwert mit wachsender Stichprobengröße dem Parameter nähert
Effizienz: gegeben, wenn der Stichprobenkennwert den geringsten Standardfehler aller erwartungstreuen Schätzer aufweist
Suffizienz: gegeben, wenn der Stichprobenkennwert alle in den Daten enthaltenen Informationen (hinsichtlich des Parameters) berücksichtigt

Was ist das Konfidenzintervall?

Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer Wahrscheinlichkeit von 1 – α den Populationsparameter enthält („überdeckt“)

Kann anhand des (geschätzten) Standardfehlers berechnet werden

Was besagt der Konfidenzkoeffizient?

1 – α

Ein Konfidenzkoeffizient von z.B. .95 besagt, dass

– wenn man (unendlich) viele Zufallsstichproben gleicher Größe aus der Population ziehen würde und

– für jede Stichprobe das KI berechnen würde,

– in 95 % aller KI der unbekannte Populationsparameter zu finden ist,

– in 5 % der KI hingegen nicht.

Was sind Freiheitsgrade?

Die Freiheitsgrade einer Prüfgröße sind identisch mit der Anzahl von Komponenten, die bei ihrer Berechnung frei variieren können.

Stichprobenkennwerte folgen nach Standardisierung einer t-Verteilung mit n-1 Freiheitsgraden („degrees of freedom“, df)

Form der t-Verteilung hängt von der Stichprobengröße n bzw. von den Freiheitsgraden (df) ab:

- Mit großem n (bzw. großer Anzahl df) geht die Verteilung in eine Standardnormalverteilung über

- Bei kleinem n (bzw. kleiner Anzahl df) ist die Verteilung jedoch breiter, d.h. die Präzision geringer

Wozu dient das Binäre Entscheidungskonzept?

Im Testkonzept von Neyman und Pearson geht es nicht nur um die Frage, ob ein bestimmter Effekt (z.B. die Abweichung eines Mittelwerts von einem xen Wert) statistisch bedeutsam ist oder nicht; vielmehr wird hier danach gefragt, wie man eine Untersuchung schon im Vorhinein so planen kann, dass sowohl die Wahrscheinlichkeit, sich fälschlicherweise gegen die Nullhypothese zu entscheiden, als auch die Wahrscheinlichkeit, sich fälschlicherweise für die Nullhypothese zu entscheiden, kontrolliert werden können. Hierfür ist es nötig, neben der Nullhypothese eine zweite statistische Annahme einzuführen, die sogenannte Alternativhypothese.

Was besagen der Fehler 1. Art (α-Fehler) bzw. der Fehler 2. Art (β-Fehler)?

Was ist die Irrtumswahrscheinlichkeit α?

Wahrscheinlichkeit, mit der ein Test ein„signifikantes“ Ergebnis ergibt, obwohl in Wirklichkeit die Nullhypothese gilt („Fehler erster Art“) (Neyman & Pearson)

- ist (ebenfalls) definiert als Flächenanteil unter der H0-Verteilung

- wird a priori vom Forscher festgelegt (konventionell auf 5%)

- entspricht (oder ähnelt zumindest) konzeptuell dem Signifikanzniveau nach Fisher

Was ist die Irrtumswahrscheinlichkeit β und wovon hängt diese ab?

Die Irrtumswahrscheinlichkeit β ist die Wahrscheinlichkeit, mit der ein statistischer Test ein nicht-signikantes Ergebnis ergibt, obwohl in Wirklichkeit die H1 gilt.

Die Irrtumswahrscheinlichkeit β liegt automatisch fest, sobald man die Alternativhypothese und α speziziert hat. Legt man nun die Irrtumswahrscheinlichkeit α auf 5 % fest (grau), so liegt gleichzeitig die Irrtumswahrscheinlichkeit β (blau) fest.

Was ist die Teststärke?

1 − β ist die Wahrscheinlichkeit, mit der ein Test ein signikantes Ergebnis ergibt, wenn ein Populationseffekt einer bestimmten hypothetisch festgelegten Größe tatsächlich existiert. Diese Wahrscheinlichkeit wird als Teststärke (engl. power) bezeichnet.

Welche 4 Merkmale unterscheiden statistische Tests?

- Exakte vs. asymptotische Tests

- Parametrische vs. nonparametrische (verteilungsfreie) Tests

- robuste Verfahren

- Resampling-Verfahren

Was ist das nonparametrische Bootstrapping? Wodurch unterscheidet es sich vom parametrischen Bootstrapping?

Parametrische Tests setzen voraus, dass das Merkmal in der Population in einer spezifischen Weise verteilt ist (und die Verteilung anhand entsprechender „Parameter“ beschrieben werden kann)

– z.B. Normalverteilung, die durch die Parameter Erwartungswert und Standardabweichung definiert ist

Nonparametrische Tests machen keine Annahmen zur Verteilung des Merkmals in der Population -> verteilungsfrei

Welche Rerandomisierungsmethoden gibt es und wann werden diese verwendet?

Randomisierungstest mit Monte-Carlo-Schätzer (in Abbildung: Randomisierungstest mit 5000 Resamples)

Dieses Randomisierungsprinzip lässt sich nicht nur auf Summen (bzw. Mittelwerte), sondern auch auf andere Größen wie den Median oder das getrimmte Mittel anwenden. Er ist darüber hinaus ein verteilungsfreier Test, da keine Verteilungsannahme in Bezug auf die Merkmalsverteilung getroffen wird. Der Test wird allerdings bei größeren Stichproben schnell sehr rechenintensiv.

Rerandomisierungs-Ansätze werden häufig auch im Bereich der Einzelfallanalyse eingesetzt. Einzelfallanalyse bedeutet, dass nur eine Person untersucht wird.

Welche unterschiedlichen Arten von Stichproben gibt es?

Einfache Zufallsstichprobe (d.h., alle möglichen Stichproben der Größe n haben die gleiche Wahrscheinlichkeit, gezogen zu werden)
Geschichtete Zufallsstichprobe→ z.B. Varianzanalyse
Klumpenstichprobe → Hierarchisch lineare Modelle
Mehrschrittige Auswahlverfahren→ Hierarchisch lineare Modelle
Einzelfallanalyse → z.B. Zeitreihenanalyse

Was versteht man unter Repräsentativität?

Repräsentativ meint „durch Zufallsauswahl aus der Grundgesamtheit entstanden“

- die Verteilung von Merkmalen in repräsentativen Stichproben unterscheidet sich von der Verteilung in der Population nur zufällig (d.h. durch den Stichprobenfehler bedingt)

- in der Praxis liegt häufig keine repräsentative Stichprobe vor, d.h. die Population ist eine andere als ursprünglich intendiert (z.B. „stationär behandelte Patienten, die bereit sind, einen Fragebogen auszufüllen“)

Welche 4 Ziele haben multivariate Verfahren?

Multivariate Verfahren umfassen mehr als zwei Variablen. Multivariate Verfahren sind u. a. aus folgenden Gründen notwendig:

(1) Analyse der Multideterminiertheit des Verhaltens

(2) Kontrolle von Störeinflüssen

(3) Aufdeckung redundanter Zusammenhänge

(4) Aufdeckung maskierter Zusammenhänge

Welcher Wert wird durch folgende Gleichung errechnet?

Estimate : Std. Err

Estimate : Std.Err = t-Wert

Warum ist die Berechnung von p-Werten problematisch?

- Stichprobenkennwerteverteilung ist nur unter asymptotischen Bedingungen bekannt, wird aber gebraucht um (wie sonst) Signifikanzniveau bestimmen zu können

- Normalerweise: t-Verteilung → t-Wert → p-Wert

Was sind die drei Möglichkeiten zur inferenzstatistischen Absicherung?

- Modellvergleich

- F-Test

- Bootstrap-basierte Konfidenzintervalle

Bootstrap-Konfidenzintervall

Stichprobenkennwerteverteilung wird „künstlich“ aus simulierter Population erzeugt.

na.rm=FALSE

na.rm=TRUE

na.rm=FALSE -> Für Zeilen mit fehlenden Werten auf diesen Variablen wird kein Mittelwert gebildet (NA).

na.rm=TRUE -> Fehlende Werte werden bei der Berechnung einfach ausgelassen.

Standardfehler

Unter dem Standardfehler versteht man die Standardabweichung der Sichprobenkennwertverteilung.

(je größer die Stichprobe -> desto genauer die Schätzung, d.h kleiner der Standardfehler)

Stichprobenmittelwert ist ein erwartungstreuer Schätzer des Populationsmittelwertes.

falsch

richtig

Die Empirische Varianz ist ein erwartungstreuer Schätzer der Populationsvarianz.

richtig

falsch

Was versteht man unter BIAS?

Abweichung des Erwartungswertes der Stichprobenkennwertverteilung vom Populationsparameter

Multivariate Statistik und Datenanalyse: Inferenzstatistik

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google