PHB Statistik Klausurvorbereitung
Zusammenfassung mögliche Klausurinhalte
Zusammenfassung mögliche Klausurinhalte
Kartei Details
Karten | 100 |
---|---|
Lernende | 11 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 06.02.2019 / 12.02.2024 |
Weblink |
https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Mit welcher Frage beschäftigt sich die Inferenzstatistik?
Inferenzstatistik beschäftigt sich mit der Frage, wie man aufgrund von Stichprobendaten auf Sachverhalte in einer zugrunde liegenden Population schließen kann („schließende Statistik“)
Was ist die Stichprobenkennwerteverteilung und wie wird sie erzeugt?
Was besagt der Zentrale Grenzwertsatz?
Die Stichprobenkennwerte- verteilung der Mittelwerte nähert sich mit zunehmender Stichprobengröße der Normalverteilung an, unabhängig davon, wie das Merkmal in der Population verteilt ist.
Die Stichprobe sollte mindestens n = 30
Nenne und erkläre kurz die 4 Gütekriterien der Parameterschätzung.
Erwartungstreue: gegeben, wenn der Erwartungswert der Stichprobenkennwerteverteilung dem Parameter entspricht
Konsistenz: gegeben, wenn sich der Stichprobenkennwert mit wachsender Stichprobengröße dem Parameter nähert
Effizienz: gegeben, wenn der Stichprobenkennwert den geringsten Standardfehler aller erwartungstreuen Schätzer aufweist
Suffizienz: gegeben, wenn der Stichprobenkennwert alle in den Daten enthaltenen Informationen (hinsichtlich des Parameters) berücksichtigt
Was versteht man unter dem Nullhypothesentest?
Die Annahme der Nullhypothese (H0) besagt, dass in der Population kein Effekt (z.B. Unterschied oder Zusammenhang) besteht
Was besagt der p-Wert?
Wahrscheinlichkeit, ein empirisches Ergebnis (oder ein noch stärker gegen die Nullhypothese sprechendes Ergebnis) unter der Nullhypothese zu finden
Formal handelt es sich um die bedingte Wahrscheinlichkeit p = P(E|H0)
Was besagt die Irrtumswahrscheinlichkeit α ?
Wahrscheinlichkeit, mit der ein Test ein „signifikantes“ Ergebnis ergibt, obwohl in Wirklichkeit die Nullhypothese gilt („Fehler erster Art“), Spezifität
definiert als Flächenanteil unter der H0-Verteilung
wird a priori vom Forscher festgelegt (konventionell auf 5%)
Was ist ein Konfidenzintervall (KI) und wie kann es berechnet werrden?
Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer Wahrscheinlichkeit von 1 - α den Populationsparameter enthält
Berechnung anhand des (geschätzten) Standardfehlers
Was besagt der Konfidenzkoeffizient (1 – α) von z.B. .95 ?
- wenn man (unendlich) viele Zufallsstichproben gleicher Größe aus der Population ziehen würde und
- für jede Stichprobe das KI berechnen würde,
- in 95 % aller KI der unbekannte Populationsparameter zu finden ist,
- in 5 % der KI hingegen nicht
Was ist der Konfidenzkoeffizient?
ein Flächenanteil unter der Stichprobenkennwerteverteilung
Was führt der Befehl colnames(dat[,1:10]) aus?
Zeige nur die Variablennamen der Spalten 1-10
Welche Unterscheidungsmerkmale statistischer Tests gibt es?
• Exakte vs. asymptotische Tests
• Parametrische vs. nonparametrische (verteilungsfreie) Tests
• robuste Verfahren
• Resampling-Verfahren
Was unterscheidet exakten von asymptotischen Tests?
Bei einem exakten Test folgt die Prüfgröße „exakt“ der zugrunde gelegten Verteilung (sofern die Voraussetzungen des Tests erfüllt sind)
Bei einem asymptotischen Test folgt die Prüfgröße der zugrunde gelegten Verteilung „asymptotisch“, d.h. ihre Verteilung nähert sich der zugrunde gelegten Verteilung mit zunehmender Stichprobengröße an
– Je kleiner die Stichprobe, desto größer der zu erwartende Fehler, den man begeht
Was unterscheidet parametrische Tests von nonparametrischen Tests?
Parametrische Tests setzen voraus, dass das Merkmal in der Population in einer spezifischen Weise verteilt ist (z.B. Normalverteilung)
Nonparametrische Tests machen keine Annahmen zur Verteilung des Merkmals in der Population
Nenne die Voraussetzungen des t--Tests für unabhängige Stichproben
- Zwei unabhängige Stichproben
- Normalverteilte Variablen in den zugrundeliegenden Populationen
- Varianzen der Variablen innerhalb der beiden Populationen sind gleich (Homoskedastizität)
Wie sind robuste Verfahren definiert und wo ist ihre Anwendung sinnvoll?
Robuste Verfahren sind Verfahren, deren Ergebnisse nicht oder nur wenig durch Ausreißerwerte beeinflusst werden
Sinnvoll, wenn Ausreißer nicht eindeutig auf Fehler zurückgeführt und vor der Analyse ausgeschlossen werden können
Was ist mit der "Robustheit" eines Verfahrens gemeint?
Das Verfajrem reagiert nicht stark auf Verletzungen seiner Annahmen
Erkläre kurz was Resampling bedeutet, welche Ziele es hat und welche Ansätze es gibt.
Beim Resampling werden aus der vorliegenden Stichprobe ("sample") erneut Stichproben gezogen.
Ziel ist es, die Verteilung der Prüfgröße oder der Stichproebenkennnwerte empirisch zu bestimmen.
Zwei Ansätze: Bootsrapping & Rerandomisierung
Erkläre kurz, wie das Nonparametrische Bootstrapping abläuft.
1. Ziehen von k Zufallsstichproben der Größe n aus der Original Stichprobe (mit Zurücklegen)
2. Berechnung des Kennwerts in jeder Stichprobe
3. Die Verteilunh der Kennwerte über alle Stichproben ist die (empirisch erzeugte) "Quasi-Stichprobenkennwerteverteilung" --> Sie wird verwendet um Standardfehler und Konfidenzintervalle zu bestimmen
Wie funktioniert der Randomisierungstest mit Monte-Carlo-Schätzer?
1. Erzeugung von k zufälligen Aufteilungen der Werte zu Bedingung A und B
2. Berechnung des Kennwerts in jeder Aufteilung
3. Die Verteilung der Kennwerte über alle Zufallsaufteilungen ist die (empirisch erzeugte) Kennwerteverteilung unter der Nullhypothese --> Sie wird verwendet um den p-Wert für den tatsächloch gefundenen Kennwert zu bestimmen
Welche Arten von Stichproben gibt es?
Einfache Zufallsstichproben
Geschichtete Zufallsstichproben
Klumpenstichproben
Mehrschrittige Auswahlverfahren
Einzelfallanalyse
Welche 3 Arten von Fehlenden Werten gibt es?
Missing completely at random (MCAR)
Missing at random (MAR)
Missing not at random (MNAR)
Was ist mit "Missing completely at random" gemeint?
Ob ein Wert fehlt oder nicht hängt weder von der betrachteten Variablen selbst noch von anderen erfassten Variablen ab
Beispiel: Im Februar wurden nur 7 zufällig ausgewählte Personen einbestellt und gemessen
Was ist mit "Missing at random" gemeint?
Fehlende Werte (R) treten zwar systematisch auf, aber die relevanten Einflussvariablen (X) wurden erfasst
Beispiel: Im Februar wurden nur die 7 Personen einbestellt und gemessen, die im Januar Bluthochdruck hatten.
Was ist mit "Missing not at random" gemeint?
Fehlende Werte hängen von der Ausprägung der betrachteten Variablen selbst ab, und dieser Zusammenhang kann von anderen Variablen nicht (vollständig) erklärt werden
Beispiel: Im Februar wurden nur Messungen von den 7 Personen notiert, die im Februar Bluthochdruck hatten
Wie sind Fehlende Werte (MCAR; MAR, MNAR) von der Problematik her zu beurteilen?
Missing completely at random (MCAR) ist am wenigsten problematisch, da vollkommen unsystematisch
Missing at random (MAR) führt bei traditionellen Verfahren zum Umgang mit fehlenden Werten (z.B. fallweiser Ausschluss) zu verzerrten Ergebnissen
Missing not at random (MNAR) ist schwierig in den Griff zu bekommen
Definiere die Einfache lineare Regression und nenne ihre Ziele.
statistisches Verfahren, mit dem versucht wird EINE metrischen abhängige Variable durch nur eine unabhängige Variable zu erklären
Ziele: Vorhersage von Merkmalsausprägungen & Erklärung von Merkmalsunterschieden
Nenne die Eigenschaften des Mittelwerts.
Summe aller Abweichungen zwischen Messwerten und Mittelwert ist NULL
Summe aller quadrierter Abweichungen zwischen Messwerten und Mittelwert ist minimal
Definiere das Kleinste-Quadrate-Kriterium
Die Regressionsgerade wird so in den Punkteschwarm gelegt, dass die Summe der quadrierten Abstände der beobachteten Kriteriumswerte (Y) von der Regressionsgeraden ein Minimum ergibt
Was ist ein Residuum?
= Fehlerwert/ error
repräsentiert die DIfferenz bzw. den Abstand zwischen vorhergesagtem Wert y^ und beobachteten Wert y
Nenne die 4 EIgenschaften von Residuen
- Die Summe aller Regressionsresiduen ist gleich 0
- Die Summe aller quadrierten Residuen ist minimal
- Die Korrelation zwischen Prädiktor und Residuen ist 0
- Die Korrelation zwischen vorhergesagten Werten und den Residuen ist gleich 0
Definiere den Standardschätzfehler
= Standardabweichung der Residuen
- Varianz der Residuen = Fehlervarianz
- Je größer die Korrelation zwischen X und Y, desto kleiner der Standardschätzfehler
Zu welchem Grundkonzept gehört diese Gleichung?
Y = b0 + b1 * X + E
einfache lineare Regressionsgleichung
AV = Achsenabschnitt (Intercept) + Steigung (slope) * UV + Regressionsresiduen
Wie lässt sich die Varianz zerlegen und was beschreibt der Determinationskoeffizient R2 ?
Die Varianz der abhängigen Variable Y lässt sich additiv in durch den Prädiktor erklärte Varianz und Fehlervarianz zerlegen
Daraus ergibt sich der Determinationskoeffizient R2 = standardisiertes Maß zur Güte der Vorhersage
Der Anteil der aufgeklärten Varianz entsrpricht der quadrierten Korrelation und variert zwischen 0 (keine Vorhersage) und 1 (perfekte Vorhersage)
Wann ist es sinnvoll unstandardisierte bzw, standardisierte Regressionsgewichte zu verwenden?
Unstandardisierte Regressionsgewichte: Vorhersage bei intuitiv interpretierbaren oder etablierten Maßeinheiten (z.B. Geld, Zeit, IQ-Werte)
Standardisierte Regressionsgewichte: Vergelich verschiedener Studien (mit unterschiedlichen Messinstrumenten)
Nenne die Ziele der multiplen Regressionsanalyse!
Prognose von Merkmalsausprägungen bzw. Erklärung von Merkmalsunterschieden anhand mehrerer unabhängiger Variablen
Berücksichtigung von Redundanzen (zwischen unabhängigen Variablen) und Kontrolle von Störvariablen
Beschreibung von komplexen gerichteten Zusammenhängen
Wo liegen die Unterschiede der multiplen Regression im Vergleich zu der einfachen linearen Regression?
Die Regressionsgewichte entsprechen nur dann den Gewichten aus k separaten (einfachen) Regressionsanalysen, wenn die UVs unabhängig voneinander sind (r = 0)
Zur Bestimmung der Regressionsgewichte müssen daher die Korrelationen der UVs mitberücksichtigt werden
Bei mehr als zwei UVs ist die Bestimmung kompliziert und wird matrix algebraisch vorgenommen
Wie wird das Regressionsgewicht zweier Regressionsresiduen bestimmt?
- Die betrachtete UV und die AV werden um alle Abhängigkeiten von den anderen UVs bereinigt (d.h. deren Einflüsse werden in seperaten einfachen Regressionen "auspartialisiert")
- Die gewonnenen Regressionsresiduen werden in einer neuen einfachen linearen Regression als UV und AV verwendet, wobei sich das ergebende Regressionsgewicht dem multiplen Regressionsgewicht genau entspricht
- Gibt den Teil des Einflusses der UV an, der nicht bereits durch die anderen UVs erklärt wird
Wie wird die Varianz bei der multiplen Regression zerlegt?
Wie einfacher linearer Regression: die Varianz der abhängigen Variable Y lässt sich additiv in durch die UVs erklärte Varianz und Fehlervarianz zerlegen
Auch hier: multipler Determinationskoeffizient R2 als standardisiertes Maß zur Güte der Vorhersage
- Anteil der aufgeklärten bzw. systematischen Varianz, entspricht der quadrierten multiplen Korrelation, variiert zwishcen 0 und 1