PHB 18/19


Fichier Détails

Cartes-fiches 70
Utilisateurs 11
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 18.01.2019 / 19.07.2024
Lien de web
https://card2brain.ch/box/20190118_multivariate_statistik_cnVo
Intégrer
<iframe src="https://card2brain.ch/box/20190118_multivariate_statistik_cnVo/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wann ist der t-Test robust gegenüber der Verletzung der Annahme auf Varianzhomogenität?

Bei gleich vielen Fällen in den Teilpopulationen ist der t-Test robust gegenüber Verletzung dieser Annahme.

-> Häufigkeitsverteilung für eine Variable: table(dat$Variable)

 

 

t.test(iip_tot ~ gender, data=dat, var.equal = FALSE)

Wie lässt sich die Grundannahme der Normalverteilung eines t-Tests prüfen?

cohen.d(dat$iip_tot ~ das$gender, paired = FALSE, na.rm = TRUE)

Effektstärke: Cohen‘s d

Womit beschäftigt sich die Inferenzstatistik?

Beschäftigt sich mit der Frage, wie man aufgrund von Stichprobendaten auf Sachverhalte in einer zugrunde liegenden Population schließen kann („schließende Statistik“).

Was besagt der Zentrale Grenzwertsatz?

Die Stichprobenkennwerteverteilung der Mittelwerte nähert sich mit zunehmender Stichprobengröße der Normalverteilung an, unabhängig davon, wie das Merkmal in der Population verteilt ist.

Welches sind die 4 Gütekriterien der Parameterschätzung

  1. Erwartungstreue: gegeben, wenn der Erwartungswert der Stichprobenkennwerteverteilung dem Parameter entspricht

  2. Konsistenz: gegeben, wenn sich der Stichprobenkennwert mit wachsender Stichprobengröße dem Parameter nähert

  3. Effizienz: gegeben, wenn der Stichprobenkennwert den geringsten Standardfehler aller erwartungstreuen Schätzer aufweist

  4. Suffizienz: gegeben, wenn der Stichprobenkennwert alle in den Daten enthaltenen Informationen (hinsichtlich des Parameters) berücksichtigt

 

Was ist das Konfidenzintervall?

Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer Wahrscheinlichkeit von 1 – α den Populationsparameter enthält („überdeckt“)

Kann anhand des (geschätzten) Standardfehlers berechnet werden

Was besagt der Konfidenzkoeffizient?

1 – α

Ein Konfidenzkoeffizient von z.B. .95 besagt, dass

– wenn man (unendlich) viele Zufallsstichproben gleicher Größe aus der Population ziehen würde und

– für jede Stichprobe das KI berechnen würde,

– in 95 % aller KI der unbekannte Populationsparameter zu finden ist,

– in 5 % der KI hingegen nicht.

Was sind Freiheitsgrade?

Die Freiheitsgrade einer Prüfgröße sind identisch mit der Anzahl von Komponenten, die bei ihrer Berechnung frei variieren können.

Stichprobenkennwerte folgen nach Standardisierung einer t-Verteilung mit n-1 Freiheitsgraden („degrees of freedom“, df)

Form der t-Verteilung hängt von der Stichprobengröße bzw. von den Freiheitsgraden (df) ab:

- Mit großem (bzw. großer Anzahl df) geht die Verteilung in eine Standardnormalverteilung über

- Bei kleinem (bzw. kleiner Anzahl df) ist die Verteilung jedoch breiter, d.h. die Präzision geringer

Wozu dient das Binäre Entscheidungskonzept?

Im Testkonzept von Neyman und Pearson geht es nicht nur um die Frage, ob ein bestimmter Effekt (z.B. die Abweichung eines Mittelwerts von einem xen Wert) statistisch bedeutsam ist oder nicht; vielmehr wird hier danach gefragt, wie man eine Untersuchung schon im Vorhinein so planen kann, dass sowohl die Wahrscheinlichkeit, sich fälschlicherweise gegen die Nullhypothese zu entscheiden, als auch die Wahrscheinlichkeit, sich fälschlicherweise für die Nullhypothese zu entscheiden, kontrolliert werden können. Hierfür ist es nötig, neben der Nullhypothese eine zweite statistische Annahme einzuführen, die sogenannte Alternativhypothese.

Was besagen der Fehler 1. Art (α-Fehler) bzw. der Fehler 2. Art (β-Fehler)?

Was ist die Irrtumswahrscheinlichkeit α?

Wahrscheinlichkeit, mit der ein Test ein„signifikantes“ Ergebnis ergibt, obwohl in Wirklichkeit die Nullhypothese gilt („Fehler erster Art“) (Neyman & Pearson)

- ist (ebenfalls) definiert als Flächenanteil unter der H0-Verteilung

- wird a priori vom Forscher festgelegt (konventionell auf 5%)

- entspricht (oder ähnelt zumindest) konzeptuell dem Signifikanzniveau nach Fisher

Was ist die Irrtumswahrscheinlichkeit β und wovon hängt diese ab?

Die Irrtumswahrscheinlichkeit β ist die Wahrscheinlichkeit, mit der ein statistischer Test ein nicht-signikantes Ergebnis ergibt, obwohl in Wirklichkeit die H1 gilt.

Die Irrtumswahrscheinlichkeit β liegt automatisch fest, sobald man die Alternativhypothese und α speziziert hat. Legt man nun die Irrtumswahrscheinlichkeit α auf 5 % fest (grau), so liegt gleichzeitig die Irrtumswahrscheinlichkeit β (blau) fest.

Was ist die Teststärke?

1 − β ist die Wahrscheinlichkeit, mit der ein Test ein signikantes Ergebnis ergibt, wenn ein Populationseffekt einer bestimmten hypothetisch festgelegten Größe tatsächlich existiert. Diese Wahrscheinlichkeit wird als Teststärke (engl. power) bezeichnet.

Welche 4 Merkmale unterscheiden statistische Tests?

- Exakte vs. asymptotische Tests

- Parametrische vs. nonparametrische (verteilungsfreie) Tests

- robuste Verfahren

- Resampling-Verfahren

Was ist das nonparametrische Bootstrapping? Wodurch unterscheidet es sich vom parametrischen Bootstrapping?

Parametrische Tests setzen voraus, dass das Merkmal in der Population in einer spezifischen Weise verteilt ist (und die Verteilung anhand entsprechender „Parameter“ beschrieben werden kann)

– z.B. Normalverteilung, die durch die Parameter Erwartungswert und Standardabweichung definiert ist

 

Nonparametrische Tests machen keine Annahmen zur Verteilung des Merkmals in der Population -> verteilungsfrei

Welche Rerandomisierungsmethoden gibt es und wann werden diese verwendet? 

Randomisierungstest mit Monte-Carlo-Schätzer (in Abbildung: Randomisierungstest mit 5000 Resamples)

Dieses Randomisierungsprinzip lässt sich nicht nur auf Summen (bzw. Mittelwerte), sondern auch auf andere Größen wie den Median oder das getrimmte Mittel anwenden. Er ist darüber hinaus ein verteilungsfreier Test, da keine Verteilungsannahme in Bezug auf die Merkmalsverteilung getroffen wird. Der Test wird allerdings bei größeren Stichproben schnell sehr rechenintensiv.

 

Rerandomisierungs-Ansätze werden häufig auch im Bereich der Einzelfallanalyse eingesetzt. Einzelfallanalyse bedeutet, dass nur eine Person untersucht wird.

Welche unterschiedlichen Arten von Stichproben gibt es?

  1. Einfache Zufallsstichprobe (d.h., alle möglichen Stichproben der Größe haben die gleiche Wahrscheinlichkeit, gezogen zu werden)

  2. Geschichtete Zufallsstichprobe→ z.B. Varianzanalyse

  3. Klumpenstichprobe → Hierarchisch lineare Modelle

  4. Mehrschrittige Auswahlverfahren→ Hierarchisch lineare Modelle

  5. Einzelfallanalyse → z.B. Zeitreihenanalyse

Was versteht man unter Repräsentativität?

Repräsentativ meint „durch Zufallsauswahl aus der Grundgesamtheit entstanden

- die Verteilung von Merkmalen in repräsentativen Stichproben unterscheidet sich von der Verteilung in der Population nur zufällig (d.h. durch den Stichprobenfehler bedingt)

- in der Praxis liegt häufig keine repräsentative Stichprobe vor, d.h. die Population ist eine andere als ursprünglich intendiert (z.B. „stationär behandelte Patienten, die bereit sind, einen Fragebogen auszufüllen“)

Welche 4 Ziele haben multivariate Verfahren?

Multivariate Verfahren umfassen mehr als zwei Variablen. Multivariate Verfahren sind u. a. aus folgenden Gründen notwendig:

(1) Analyse der Multideterminiertheit des Verhaltens

(2) Kontrolle von Störeinflüssen

(3) Aufdeckung redundanter Zusammenhänge

(4) Aufdeckung maskierter Zusammenhänge

Welcher Wert wird durch folgende Gleichung errechnet?

Estimate : Std. Err

 

Estimate : Std.Err = t-Wert 

Warum ist die Berechnung von p-Werten problematisch?

- Stichprobenkennwerteverteilung ist nur unter asymptotischen Bedingungen bekannt, wird aber gebraucht um (wie sonst) Signifikanzniveau bestimmen zu können

Normalerweise: t-Verteilung → t-Wert → p-Wert

Was sind die drei Möglichkeiten zur inferenzstatistischen Absicherung?

- Modellvergleich

- F-Test

- Bootstrap-basierte Konfidenzintervalle

Bootstrap-Konfidenzintervall

Stichprobenkennwerteverteilung wird „künstlich“ aus simulierter Population erzeugt.

na.rm=FALSE

na.rm=TRUE

na.rm=FALSE -> Für Zeilen mit fehlenden Werten auf diesen Variablen wird kein Mittelwert gebildet (NA).

na.rm=TRUE  -> Fehlende Werte werden bei der Berechnung einfach ausgelassen. 

Standardfehler

Unter dem Standardfehler versteht man die Standardabweichung der Sichprobenkennwertverteilung

(je größer die Stichprobe -> desto genauer die Schätzung, d.h kleiner der Standardfehler) 

Stichprobenmittelwert ist ein erwartungstreuer Schätzer des Populationsmittelwertes. 

Die Empirische Varianz ist ein erwartungstreuer Schätzer der Populationsvarianz. 

Was versteht man unter BIAS?

Abweichung des Erwartungswertes der Stichprobenkennwertverteilung vom Populationsparameter