Lernkartei PHB Statistik Klausurvorbereitung (Seite 1 von 3)

Karten	100
Lernende	11
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	06.02.2019 / 12.02.2024
Weblink	https://card2brain.ch/cards/20190206_phb_statistik_klausurvorbereitung
Einbinden	<iframe src="https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Mit welcher Frage beschäftigt sich die Inferenzstatistik?

Inferenzstatistik beschäftigt sich mit der Frage, wie man aufgrund von Stichprobendaten auf Sachverhalte in einer zugrunde liegenden Population schließen kann („schließende Statistik“)

Was ist die Stichprobenkennwerteverteilung und wie wird sie erzeugt?

Die Stichprobenkennwerteverteilung ist die Wahrscheinlichkeitsverteilung von Stichprobenkennwerten (z.B. ��) aus zufällig gezogenen Stichproben der Größe n.

Die theoretische Stichprobenkennwerte-verteilung des Mittelwerts ist bekannt und wird i.d.r. anhand von Formeln bestimmt.

Was besagt der Zentrale Grenzwertsatz?

Die Stichprobenkennwerte- verteilung der Mittelwerte nähert sich mit zunehmender Stichprobengröße der Normalverteilung an, unabhängig davon, wie das Merkmal in der Population verteilt ist.

Die Stichprobe sollte mindestens n = 30

Nenne und erkläre kurz die 4 Gütekriterien der Parameterschätzung.

Erwartungstreue: gegeben, wenn der Erwartungswert der Stichprobenkennwerteverteilung dem Parameter entspricht

Konsistenz: gegeben, wenn sich der Stichprobenkennwert mit wachsender Stichprobengröße dem Parameter nähert

Effizienz: gegeben, wenn der Stichprobenkennwert den geringsten Standardfehler aller erwartungstreuen Schätzer aufweist

Suffizienz: gegeben, wenn der Stichprobenkennwert alle in den Daten enthaltenen Informationen (hinsichtlich des Parameters) berücksichtigt

Was versteht man unter dem Nullhypothesentest?

Die Annahme der Nullhypothese (H0) besagt, dass in der Population kein Effekt (z.B. Unterschied oder Zusammenhang) besteht

Was besagt der p-Wert?

Wahrscheinlichkeit, ein empirisches Ergebnis (oder ein noch stärker gegen die Nullhypothese sprechendes Ergebnis) unter der Nullhypothese zu finden

Formal handelt es sich um die bedingte Wahrscheinlichkeit p = P(E|H0)

Was besagt die Irrtumswahrscheinlichkeit α ?

Wahrscheinlichkeit, mit der ein Test ein „signifikantes“ Ergebnis ergibt, obwohl in Wirklichkeit die Nullhypothese gilt („Fehler erster Art“), Spezifität

definiert als Flächenanteil unter der H0-Verteilung

wird a priori vom Forscher festgelegt (konventionell auf 5%)

Was ist ein Konfidenzintervall (KI) und wie kann es berechnet werrden?

Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer Wahrscheinlichkeit von 1 - α den Populationsparameter enthält

Berechnung anhand des (geschätzten) Standardfehlers

Was besagt der Konfidenzkoeffizient (1 – α) von z.B. .95 ?

wenn man (unendlich) viele Zufallsstichproben gleicher Größe aus der Population ziehen würde und
für jede Stichprobe das KI berechnen würde,
in 95 % aller KI der unbekannte Populationsparameter zu finden ist,
in 5 % der KI hingegen nicht

Was ist der Konfidenzkoeffizient?

ein Flächenanteil unter der Stichprobenkennwerteverteilung

Was führt der Befehl colnames(dat[,1:10]) aus?

Zeige nur die Variablennamen der Spalten 1-10

Welche Unterscheidungsmerkmale statistischer Tests gibt es?

• Exakte vs. asymptotische Tests
• Parametrische vs. nonparametrische (verteilungsfreie) Tests

• robuste Verfahren
• Resampling-Verfahren

Was unterscheidet exakten von asymptotischen Tests?

Bei einem exakten Test folgt die Prüfgröße „exakt“ der zugrunde gelegten Verteilung (sofern die Voraussetzungen des Tests erfüllt sind)
Bei einem asymptotischen Test folgt die Prüfgröße der zugrunde gelegten Verteilung „asymptotisch“, d.h. ihre Verteilung nähert sich der zugrunde gelegten Verteilung mit zunehmender Stichprobengröße an
– Je kleiner die Stichprobe, desto größer der zu erwartende Fehler, den man begeht

Was unterscheidet parametrische Tests von nonparametrischen Tests?

Parametrische Tests setzen voraus, dass das Merkmal in der Population in einer spezifischen Weise verteilt ist (z.B. Normalverteilung)

Nonparametrische Tests machen keine Annahmen zur Verteilung des Merkmals in der Population

Nenne die Voraussetzungen des t--Tests für unabhängige Stichproben

Zwei unabhängige Stichproben
Normalverteilte Variablen in den zugrundeliegenden Populationen
Varianzen der Variablen innerhalb der beiden Populationen sind gleich (Homoskedastizität)

Wie sind robuste Verfahren definiert und wo ist ihre Anwendung sinnvoll?

Robuste Verfahren sind Verfahren, deren Ergebnisse nicht oder nur wenig durch Ausreißerwerte beeinflusst werden

Sinnvoll, wenn Ausreißer nicht eindeutig auf Fehler zurückgeführt und vor der Analyse ausgeschlossen werden können

Was ist mit der "Robustheit" eines Verfahrens gemeint?

Das Verfajrem reagiert nicht stark auf Verletzungen seiner Annahmen

Erkläre kurz was Resampling bedeutet, welche Ziele es hat und welche Ansätze es gibt.

Beim Resampling werden aus der vorliegenden Stichprobe ("sample") erneut Stichproben gezogen.

Ziel ist es, die Verteilung der Prüfgröße oder der Stichproebenkennnwerte empirisch zu bestimmen.

Zwei Ansätze: Bootsrapping & Rerandomisierung

Erkläre kurz, wie das Nonparametrische Bootstrapping abläuft.

1. Ziehen von k Zufallsstichproben der Größe n aus der Original Stichprobe (mit Zurücklegen)

2. Berechnung des Kennwerts in jeder Stichprobe

3. Die Verteilunh der Kennwerte über alle Stichproben ist die (empirisch erzeugte) "Quasi-Stichprobenkennwerteverteilung" --> Sie wird verwendet um Standardfehler und Konfidenzintervalle zu bestimmen

Wie funktioniert der Randomisierungstest mit Monte-Carlo-Schätzer?

1. Erzeugung von k zufälligen Aufteilungen der Werte zu Bedingung A und B

2. Berechnung des Kennwerts in jeder Aufteilung

3. Die Verteilung der Kennwerte über alle Zufallsaufteilungen ist die (empirisch erzeugte) Kennwerteverteilung unter der Nullhypothese --> Sie wird verwendet um den p-Wert für den tatsächloch gefundenen Kennwert zu bestimmen

Welche Arten von Stichproben gibt es?

Einfache Zufallsstichproben

Geschichtete Zufallsstichproben

Klumpenstichproben

Mehrschrittige Auswahlverfahren

Einzelfallanalyse

Welche 3 Arten von Fehlenden Werten gibt es?

Missing completely at random (MCAR)

Missing at random (MAR)

Missing not at random (MNAR)

Was ist mit "Missing completely at random" gemeint?

Ob ein Wert fehlt oder nicht hängt weder von der betrachteten Variablen selbst noch von anderen erfassten Variablen ab

Beispiel: Im Februar wurden nur 7 zufällig ausgewählte Personen einbestellt und gemessen

Was ist mit "Missing at random" gemeint?

Fehlende Werte (R) treten zwar systematisch auf, aber die relevanten Einflussvariablen (X) wurden erfasst

Beispiel: Im Februar wurden nur die 7 Personen einbestellt und gemessen, die im Januar Bluthochdruck hatten.

Was ist mit "Missing not at random" gemeint?

Fehlende Werte hängen von der Ausprägung der betrachteten Variablen selbst ab, und dieser Zusammenhang kann von anderen Variablen nicht (vollständig) erklärt werden

Beispiel: Im Februar wurden nur Messungen von den 7 Personen notiert, die im Februar Bluthochdruck hatten

Wie sind Fehlende Werte (MCAR; MAR, MNAR) von der Problematik her zu beurteilen?

Missing completely at random (MCAR) ist am wenigsten problematisch, da vollkommen unsystematisch
Missing at random (MAR) führt bei traditionellen Verfahren zum Umgang mit fehlenden Werten (z.B. fallweiser Ausschluss) zu verzerrten Ergebnissen
Missing not at random (MNAR) ist schwierig in den Griff zu bekommen

Definiere die Einfache lineare Regression und nenne ihre Ziele.

statistisches Verfahren, mit dem versucht wird EINE metrischen abhängige Variable durch nur eine unabhängige Variable zu erklären

Ziele: Vorhersage von Merkmalsausprägungen & Erklärung von Merkmalsunterschieden

Nenne die Eigenschaften des Mittelwerts.

Summe aller Abweichungen zwischen Messwerten und Mittelwert ist NULL
Summe aller quadrierter Abweichungen zwischen Messwerten und Mittelwert ist minimal

Definiere das Kleinste-Quadrate-Kriterium

Die Regressionsgerade wird so in den Punkteschwarm gelegt, dass die Summe der quadrierten Abstände der beobachteten Kriteriumswerte (Y) von der Regressionsgeraden ein Minimum ergibt

Was ist ein Residuum?

= Fehlerwert/ error

repräsentiert die DIfferenz bzw. den Abstand zwischen vorhergesagtem Wert y^ und beobachteten Wert y

Nenne die 4 EIgenschaften von Residuen

Die Summe aller Regressionsresiduen ist gleich 0
Die Summe aller quadrierten Residuen ist minimal
Die Korrelation zwischen Prädiktor und Residuen ist 0
Die Korrelation zwischen vorhergesagten Werten und den Residuen ist gleich 0

Definiere den Standardschätzfehler

= Standardabweichung der Residuen

- Varianz der Residuen = Fehlervarianz

- Je größer die Korrelation zwischen X und Y, desto kleiner der Standardschätzfehler

Zu welchem Grundkonzept gehört diese Gleichung?

Y = b0 + b1 * X + E

einfache lineare Regressionsgleichung

AV = Achsenabschnitt (Intercept) + Steigung (slope) * UV + Regressionsresiduen

Wie lässt sich die Varianz zerlegen und was beschreibt der Determinationskoeffizient R²?

Die Varianz der abhängigen Variable Y lässt sich additiv in durch den Prädiktor erklärte Varianz und Fehlervarianz zerlegen

Daraus ergibt sich der Determinationskoeffizient R²= standardisiertes Maß zur Güte der Vorhersage

Der Anteil der aufgeklärten Varianz entsrpricht der quadrierten Korrelation und variert zwischen 0 (keine Vorhersage) und 1 (perfekte Vorhersage)

Wann ist es sinnvoll unstandardisierte bzw, standardisierte Regressionsgewichte zu verwenden?

Unstandardisierte Regressionsgewichte: Vorhersage bei intuitiv interpretierbaren oder etablierten Maßeinheiten (z.B. Geld, Zeit, IQ-Werte)

Standardisierte Regressionsgewichte: Vergelich verschiedener Studien (mit unterschiedlichen Messinstrumenten)

Nenne die Ziele der multiplen Regressionsanalyse!

Prognose von Merkmalsausprägungen bzw. Erklärung von Merkmalsunterschieden anhand mehrerer unabhängiger Variablen
Berücksichtigung von Redundanzen (zwischen unabhängigen Variablen) und Kontrolle von Störvariablen
Beschreibung von komplexen gerichteten Zusammenhängen

Zu welchem statistischen Test gehört diese Gleichung?

Modellgleichung multiple Regression

Wo liegen die Unterschiede der multiplen Regression im Vergleich zu der einfachen linearen Regression?

Die Regressionsgewichte entsprechen nur dann den Gewichten aus k separaten (einfachen) Regressionsanalysen, wenn die UVs unabhängig voneinander sind (r = 0)
Zur Bestimmung der Regressionsgewichte müssen daher die Korrelationen der UVs mitberücksichtigt werden
Bei mehr als zwei UVs ist die Bestimmung kompliziert und wird matrix algebraisch vorgenommen

Wie wird das Regressionsgewicht zweier Regressionsresiduen bestimmt?

Die betrachtete UV und die AV werden um alle Abhängigkeiten von den anderen UVs bereinigt (d.h. deren Einflüsse werden in seperaten einfachen Regressionen "auspartialisiert")
Die gewonnenen Regressionsresiduen werden in einer neuen einfachen linearen Regression als UV und AV verwendet, wobei sich das ergebende Regressionsgewicht dem multiplen Regressionsgewicht genau entspricht
Gibt den Teil des Einflusses der UV an, der nicht bereits durch die anderen UVs erklärt wird

Wie wird die Varianz bei der multiplen Regression zerlegt?

Wie einfacher linearer Regression: die Varianz der abhängigen Variable Y lässt sich additiv in durch die UVs erklärte Varianz und Fehlervarianz zerlegen

Auch hier: multipler Determinationskoeffizient R²als standardisiertes Maß zur Güte der Vorhersage

- Anteil der aufgeklärten bzw. systematischen Varianz, entspricht der quadrierten multiplen Korrelation, variiert zwishcen 0 und 1

PHB Statistik Klausurvorbereitung

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google