PHB Statistik Klausurvorbereitung

Zusammenfassung mögliche Klausurinhalte

Zusammenfassung mögliche Klausurinhalte


Kartei Details

Karten 100
Lernende 11
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 06.02.2019 / 12.02.2024
Weblink
https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung
Einbinden
<iframe src="https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Mit welcher Frage beschäftigt sich die Inferenzstatistik? 

Inferenzstatistik beschäftigt sich mit der Frage, wie man aufgrund von Stichprobendaten auf Sachverhalte in einer zugrunde liegenden Population schließen kann („schließende Statistik“)

Was ist die Stichprobenkennwerteverteilung und wie wird sie erzeugt? 

Die Stichprobenkennwerteverteilung ist die Wahrscheinlichkeitsverteilung von Stichprobenkennwerten (z.B. ��) aus zufällig gezogenen Stichproben der Größe n.

Die theoretische Stichprobenkennwerte-verteilung des Mittelwerts ist bekannt und wird i.d.r. anhand von Formeln bestimmt.

Was besagt der Zentrale Grenzwertsatz? 

Die Stichprobenkennwerte- verteilung der Mittelwerte nähert sich mit zunehmender Stichprobengröße der Normalverteilung an, unabhängig davon, wie das Merkmal in der Population verteilt ist. 

Die Stichprobe sollte mindestens n = 30

 

Nenne und erkläre kurz die 4 Gütekriterien der Parameterschätzung.

 

Erwartungstreue: gegeben, wenn der Erwartungswert der Stichprobenkennwerteverteilung dem Parameter entspricht

Konsistenz: gegeben, wenn sich der Stichprobenkennwert mit wachsender Stichprobengröße dem Parameter nähert

Effizienz: gegeben, wenn der Stichprobenkennwert den geringsten Standardfehler aller erwartungstreuen Schätzer aufweist

Suffizienz: gegeben, wenn der Stichprobenkennwert alle in den Daten enthaltenen Informationen (hinsichtlich des Parameters) berücksichtigt

Was versteht man unter dem Nullhypothesentest? 

Die Annahme der Nullhypothese (H0) besagt, dass in der Population kein Effekt (z.B. Unterschied oder Zusammenhang) besteht

Was besagt der p-Wert? 

Wahrscheinlichkeit, ein empirisches Ergebnis (oder ein noch stärker gegen die Nullhypothese sprechendes Ergebnis) unter der Nullhypothese zu finden

Formal handelt es sich um die bedingte Wahrscheinlichkeit p = P(E|H0)

Was besagt die Irrtumswahrscheinlichkeit α ?

Wahrscheinlichkeit, mit der ein Test ein „signifikantes“ Ergebnis ergibt, obwohl in Wirklichkeit die Nullhypothese gilt („Fehler erster Art“), Spezifität

definiert als Flächenanteil unter der H0-Verteilung

wird a priori vom Forscher festgelegt (konventionell auf 5%)

Was ist ein Konfidenzintervall (KI) und wie kann es berechnet werrden? 

Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer Wahrscheinlichkeit von 1 - α  den Populationsparameter enthält

Berechnung anhand des (geschätzten) Standardfehlers 

Was besagt der Konfidenzkoeffizient (1 – α) von z.B. .95 ? 

  • wenn man (unendlich) viele Zufallsstichproben gleicher Größe aus der Population ziehen würde und
  • für jede Stichprobe das KI berechnen würde,
  • in 95 % aller KI der unbekannte Populationsparameter zu finden ist,
  • in 5 % der KI hingegen nicht

Was ist der Konfidenzkoeffizient? 

ein Flächenanteil unter der Stichprobenkennwerteverteilung

Was führt der Befehl colnames(dat[,1:10]) aus?

Zeige nur die Variablennamen der Spalten 1-10

Welche Unterscheidungsmerkmale statistischer Tests gibt es? 

• Exakte vs. asymptotische Tests
• Parametrische vs. nonparametrische (verteilungsfreie) Tests

• robuste Verfahren
• Resampling-Verfahren

Was unterscheidet exakten von asymptotischen Tests? 

  • Bei einem exakten Test folgt die Prüfgröße „exakt“ der zugrunde gelegten Verteilung (sofern die Voraussetzungen des Tests erfüllt sind)

  • Bei einem asymptotischen Test folgt die Prüfgröße der zugrunde gelegten Verteilung „asymptotisch“, d.h. ihre Verteilung nähert sich der zugrunde gelegten Verteilung mit zunehmender Stichprobengröße an

    – Je kleiner die Stichprobe, desto größer der zu erwartende Fehler, den man begeht

Was unterscheidet parametrische Tests von nonparametrischen Tests? 

Parametrische Tests setzen voraus, dass das Merkmal in der Population in einer spezifischen Weise verteilt ist  (z.B. Normalverteilung)

Nonparametrische Tests machen keine Annahmen zur Verteilung des Merkmals in der Population

Nenne die Voraussetzungen des t--Tests für unabhängige Stichproben

  • Zwei unabhängige Stichproben
  • Normalverteilte Variablen in den zugrundeliegenden Populationen
  • Varianzen der Variablen innerhalb der beiden Populationen sind gleich (Homoskedastizität)

Wie sind robuste Verfahren definiert und wo ist ihre Anwendung sinnvoll? 

Robuste Verfahren sind Verfahren, deren Ergebnisse nicht oder nur wenig durch Ausreißerwerte beeinflusst werden

Sinnvoll, wenn Ausreißer nicht eindeutig auf Fehler zurückgeführt und vor der Analyse ausgeschlossen werden können

Was ist mit der "Robustheit" eines Verfahrens gemeint?

Das Verfajrem reagiert nicht stark auf Verletzungen seiner Annahmen

Erkläre kurz was Resampling bedeutet, welche Ziele es hat und welche Ansätze es gibt.

Beim Resampling werden aus der vorliegenden Stichprobe ("sample") erneut Stichproben gezogen

Ziel ist es, die Verteilung der Prüfgröße oder der Stichproebenkennnwerte empirisch zu bestimmen

Zwei Ansätze: Bootsrapping & Rerandomisierung

Erkläre kurz, wie das Nonparametrische Bootstrapping abläuft.

1. Ziehen von k Zufallsstichproben der Größe n aus der Original Stichprobe (mit Zurücklegen)

2. Berechnung des Kennwerts in jeder Stichprobe

3. Die Verteilunh der Kennwerte über alle Stichproben ist die (empirisch erzeugte) "Quasi-Stichprobenkennwerteverteilung" --> Sie wird verwendet um Standardfehler und Konfidenzintervalle zu bestimmen 

Wie funktioniert der Randomisierungstest mit Monte-Carlo-Schätzer?

1. Erzeugung von k zufälligen Aufteilungen der Werte zu Bedingung A und B

2. Berechnung des Kennwerts in jeder Aufteilung 

3. Die Verteilung der Kennwerte über alle Zufallsaufteilungen ist die (empirisch erzeugte) Kennwerteverteilung unter der Nullhypothese --> Sie wird verwendet um den p-Wert für den tatsächloch gefundenen Kennwert zu bestimmen 

Welche Arten von Stichproben gibt es? 

Einfache Zufallsstichproben

Geschichtete Zufallsstichproben

Klumpenstichproben

Mehrschrittige Auswahlverfahren

Einzelfallanalyse

Welche 3 Arten von Fehlenden Werten gibt es? 

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR) 

Was ist mit "Missing completely at random" gemeint? 

Ob ein Wert fehlt oder nicht hängt weder von der betrachteten Variablen selbst noch von anderen erfassten Variablen ab

Beispiel: Im Februar wurden nur 7 zufällig ausgewählte Personen einbestellt und gemessen

Was ist mit "Missing at random" gemeint?

 

Fehlende Werte (R) treten zwar systematisch auf, aber die relevanten Einflussvariablen (X) wurden erfasst

Beispiel: Im Februar wurden nur die 7 Personen einbestellt und gemessen, die im Januar Bluthochdruck hatten.

Was ist mit "Missing not at random" gemeint?

Fehlende Werte hängen von der Ausprägung der betrachteten Variablen selbst ab, und dieser Zusammenhang kann von anderen Variablen nicht (vollständig) erklärt werden

Beispiel: Im Februar wurden nur Messungen von den 7 Personen notiert, die im Februar Bluthochdruck hatten

Wie sind Fehlende Werte (MCAR; MAR, MNAR) von der Problematik her zu beurteilen? 

  • Missing completely at random (MCAR) ist am wenigsten problematisch, da vollkommen unsystematisch

  • Missing at random (MAR) führt bei traditionellen Verfahren zum Umgang mit fehlenden Werten (z.B. fallweiser Ausschluss) zu verzerrten Ergebnissen

  • Missing not at random (MNAR) ist schwierig in den Griff zu bekommen

Definiere die Einfache lineare Regression und nenne ihre Ziele. 

statistisches Verfahren, mit dem versucht wird EINE metrischen abhängige Variable durch nur eine unabhängige Variable zu erklären

Ziele: Vorhersage von Merkmalsausprägungen & Erklärung von Merkmalsunterschieden

Nenne die Eigenschaften des Mittelwerts.

  • Summe aller Abweichungen zwischen Messwerten und Mittelwert ist NULL

  • Summe aller quadrierter Abweichungen zwischen Messwerten und Mittelwert ist minimal

Definiere das Kleinste-Quadrate-Kriterium

Die Regressionsgerade wird so in den Punkteschwarm gelegt, dass die Summe der quadrierten Abstände der beobachteten Kriteriumswerte (Y) von der Regressionsgeraden ein Minimum ergibt

Was ist ein Residuum?

= Fehlerwert/ error

repräsentiert die DIfferenz bzw. den Abstand zwischen vorhergesagtem Wert y^ und beobachteten Wert y

Nenne die 4 EIgenschaften von Residuen

 

  • Die Summe aller Regressionsresiduen ist gleich 0 
  • Die Summe aller quadrierten Residuen ist minimal 
  • Die Korrelation zwischen Prädiktor und Residuen ist 0 
  • Die Korrelation zwischen vorhergesagten Werten und den Residuen ist gleich 0

Definiere den Standardschätzfehler

= Standardabweichung der Residuen

 

- Varianz der Residuen = Fehlervarianz

- Je größer die Korrelation zwischen X und Y, desto kleiner der Standardschätzfehler  

Zu welchem Grundkonzept gehört diese Gleichung? 

Y = b0 + b1 * X + E 

einfache lineare Regressionsgleichung 

 

AV = Achsenabschnitt (Intercept) + Steigung (slope) * UV + Regressionsresiduen

Wie lässt sich die Varianz zerlegen und was beschreibt der Determinationskoeffizient R2 ?

Die Varianz der abhängigen Variable Y lässt sich additiv in durch den Prädiktor erklärte Varianz und Fehlervarianz zerlegen 

Daraus ergibt sich der Determinationskoeffizient R2 = standardisiertes Maß zur Güte der Vorhersage 

Der Anteil der aufgeklärten Varianz entsrpricht der quadrierten Korrelation und variert zwischen 0 (keine Vorhersage) und 1 (perfekte Vorhersage

Wann ist es sinnvoll unstandardisierte bzw, standardisierte Regressionsgewichte zu verwenden? 

Unstandardisierte Regressionsgewichte: Vorhersage bei intuitiv interpretierbaren oder etablierten Maßeinheiten (z.B. Geld, Zeit, IQ-Werte) 

Standardisierte Regressionsgewichte: Vergelich verschiedener Studien (mit unterschiedlichen Messinstrumenten) 

Nenne die Ziele der multiplen Regressionsanalyse!

  • Prognose von Merkmalsausprägungen bzw. Erklärung von Merkmalsunterschieden anhand mehrerer unabhängiger Variablen

  • Berücksichtigung von Redundanzen (zwischen unabhängigen Variablen) und Kontrolle von Störvariablen

  • Beschreibung von komplexen gerichteten Zusammenhängen

Zu welchem statistischen Test gehört diese Gleichung? 

Modellgleichung multiple Regression

Wo liegen die Unterschiede der multiplen Regression im Vergleich zu der einfachen linearen Regression? 

  • Die Regressionsgewichte entsprechen nur dann den Gewichten aus k separaten (einfachen) Regressionsanalysen, wenn die UVs unabhängig voneinander sind (r = 0)

  • Zur Bestimmung der Regressionsgewichte müssen daher die Korrelationen der UVs mitberücksichtigt werden

  • Bei mehr als zwei UVs ist die Bestimmung kompliziert und wird matrix algebraisch vorgenommen

Wie wird das Regressionsgewicht zweier Regressionsresiduen bestimmt? 

  • Die betrachtete UV und die AV werden um alle Abhängigkeiten von den anderen UVs bereinigt (d.h. deren Einflüsse werden in seperaten einfachen Regressionen "auspartialisiert") 
  • Die gewonnenen Regressionsresiduen werden in einer neuen einfachen linearen Regression als UV und AV verwendet, wobei sich das ergebende Regressionsgewicht dem multiplen Regressionsgewicht genau entspricht 
  • Gibt den Teil des Einflusses der UV an, der nicht bereits durch die anderen UVs erklärt wird 

Wie wird die Varianz bei der multiplen Regression zerlegt? 

Wie einfacher linearer Regression: die Varianz der abhängigen Variable Y lässt sich additiv in durch die UVs erklärte Varianz und Fehlervarianz zerlegen 

Auch hier: multipler Determinationskoeffizient R2 als standardisiertes Maß zur Güte der Vorhersage

- Anteil der aufgeklärten bzw. systematischen Varianz, entspricht der quadrierten multiplen Korrelation, variiert zwishcen 0 und 1