PHB Statistik Klausurvorbereitung

Zusammenfassung mögliche Klausurinhalte

Zusammenfassung mögliche Klausurinhalte


Kartei Details

Karten 100
Lernende 11
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 06.02.2019 / 12.02.2024
Weblink
https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung
Einbinden
<iframe src="https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wo liegt der Unterschied zwischen der Partailkorrelation und Semipartialkorrelation?

Partialkorrelation: Korrelation zweier Variablen, die vom Effekt anderer Variablen bereinigt wurden.

Semipartialkorrelation: die Korrelation zweier Variablen, von denen eine vom Effekt EINER anderen Variablen bereinigt wurden.

 

Wie lässt sich der multiple Determinationskoeffizient R2 verstehen? 

 

Der multiple Determinationskoeffizient Rlässt sich als Summe der quadrierten Semipartialkorrelationen zunehmend höherer Ordnung verstehen

Welche Verfahren zur Auswahl von unabhängigen Variaben gibt es? 

Theoretische Auswahl von UVs: z.B. Theoretische Relevanz, Kausale Priorität, Pragmatische Gesichtspunkte wie Kostengünstigkeit

Datengesteuerte Auswahl von UVs: Sinnvoll, wenn keine theoretischen Überlegungen vorliegen (zB. Vorwärtsseklektion

Beschreibe kurz den Ablauf der Vorwärtsselektion

  • Festlegung des Signifikanzniveaus sowie Festlegung aller potentiellen UVs
  • Aufnahme der UV, die am höchsten (und signifikant) mit der AV korreliert ist
  • Aufnahme der UV, die gegenüber der ersten UV (signifikant) am meisten zusätzliche Varianz aufklärt
  • Aufnahme der UV, die gegenüber der ersten und zweiten UV (signifikant) am meisten zusätzliche Varianz aufklärt.... und so weiter
  • Abbruch, wenn keine der verbliebenen UVs einen signifikanten zusätzlichen Erklärungsbeitrag leistet 

Wie kann die Prognosegüte eines Tests bestimmt werden (wenn z.B. eine neue Stichproebenziehung zu aufwändig ist)? 

"2-fold" Kreuzvalidierung

"Leave-one-out" Kreuzvalidierung

Beschreibe den Ablauf der "2-fold" Kreuzvalidierung

"2-fold" Kreuzvalidierung

  • Teilung des Datensatzes in 2 Hälften (Trainings- vs. Test-Substichprobe)
  • Bestimmung des optimalen Modells inkl. Regressionsgewichte
  • Prognose der y-Werte für alle Personen der Test-Substichproebe anhand der Regressionsgleichung aus der Trainings-Substichprobe
  • Korrelation der prognostizierten mit den beobachteten Werten in der Test-Substichproebe
  • Vergleich mit der multiplen Korrelation aus der Trainingssubstichprobe (Bei starker Abweichung keine gute Prognose -> keine Verallgemeinerung auf zukünftige Fälle) 

Beschreibe den Ablauf der "Leave-one-out" Kreuzvalidierung

"Leave-one-out" Kreuzvalidierung

  • Als Trainings-Substichprobe gilt eine Stichprobe, aus der eine einzige Person entfernt wurde (n–1)
  • Bestimmung der Regressionsparameter an der Trainings- Substichprobe und Prognose des y-Werts für die „entfernte“ Person
  • Durchführung dieses Verfahrens für alle n Personen
  • Maße der Prognosegüte: Prognosefehler (PRESS, Summe der quadrierten Abweichungen zwischen vorhergesagtem und beobachtetem Wert), Kreuzvalidierungsfehler (CVE, Mittelwert der quadrierten Abweichungen zwischen vorhergesagtem und beobachtetem Wert)
  • Vergleich verschiedener Modelle anhand der Prognosegüte

Was ist Suppression? 

Suppression liegt vor, wenn die Nützlichkeit einer UV größer ist als ihre quadrierte Korrelation mit der AV. 

Durch Suppression (Kontrolle von Störvariablen) kann die Nützlichkeit einer UV für die Vorhersage der Av verbessert werden. 

Nenne die Merkmale klassischer Suppression

Bei Bivariaten Korrelationen sind X1 und X2 signifikant korreliert, X1 und Y dagegen nicht

Bei Multipler Regression ist der multiple Determinationskoeffizient größer als die quadrierte Korrelation von X1 und Y

Nenne die zwei am häufigsten eingesetzte Codierstrategien und beschreibe wann es sinnvoll ist, welche Strategie anzuwenden!

Dummy-Codierung: z.B. sinnvoll, wenn sich durch das Versuchsdesign klar eine Referenzgruppe festlegen lässt (z.B. Kontrollgruppe) 

Effektcodierung: z.B. sinnvoll, wenn Abweichungen vom Gesamtmittelwert von Interesse sind (z.B. Vergleich verschiedener Altersgrupen, Treatments) 

In welchen Fällen würde man gewichtete bzw. ungewichtete Effektcodierung anwenden? 

Ungewichtete Effektcodierung: wenn Unterschiede in Teilstichproeben auf unsystematische Ausfälle zurückgeführt werden können

Gewichtete Effektcodierung: wenn Unterschiede in Katergoriehäufigkeiten inhaltlich relevant sind (z.B. repräsentativ für Populationen) 

Beschreibe, wie die Dummy-Codierung funktioniert. 

  • Eine der Kategorien der UV wird als Referenzkategorie ausgewählt
  • Die Referenzkategorie erhält auf allen Codiervariablen den Wert 0
  • Allen anderen Kategorien der UV werden derart Werte auf den Codiervariablen zugewiesen, dass
  • jede Kategorie nur auf einer einzigen Codiervariablen den Wert 1 aufweist, auf allen anderen den Wert 0
  • jede Codiervariable nur für eine einzige Kategorie den Wert 1 aufweist, für alle anderen den Wert 0

Beschreibe das Vorgehen in der Ungewichteten Effektcodierung

  • Eine der c Kategorien der UV wird als Referenzkategorie ausgewählt
  • Die Referenzkategorie erhält auf allen Codiervariablen den Wert -1
  • Allen anderen Kategorien der UV werden derart Werte auf den Codiervariablen zugewiesen, dass
  • jede Kategorie nur auf einer einzigen Codiervariablen den Wert 1 aufweist, auf allen anderen den Wert 0
  • jede Codiervariable nur für eine einzige Kategorie den Wert 1 und für die Referenzkategorie den Wert -1 aufweist, für alle anderen den Wert 0

Warum ist die Erklärungskraft von Produktvariablen eher klein? 

Die Erklärungskraft von Produktvariablen ist in empirischen Studien häufig eher klein (ca 3%- 8%). Das liegt auch am Einfluss des Messfehlers: Die Produktvariablen sind messfehlerbehafteter als die UVs, was u.a. zu einer Verringerung der Teststärke führt (d.h. in der Population vorhandene Moderatoreffekte werden nicht entdeckt)

Warum wird die moderierte Regressionsanalyse verwendet? 

In bisherigen Regressionsanalysen wurde angenommen, dass UVs additiv verknüpft sind (= das Regressionsgewicht hängt nicht von den Ausprägungen anderer UVs ab) --> DIese Annahme ist zu einfach bzw. psychologisch unplausibel

Um zu berücksichtigen, dass der Effekt einer UV auf eine AV von der Ausprägung einer weiteren UV abhängen kann, wird eine moderierte Regressionsanalyse verwendet

Wozu wendet man die polynomische Regression an? 

Ein nicht-linearer Zusammenhang lässt sich im Rahmen der multiplen Regressionsanalyse durch die Definition und den Einbezug von Polynomen höherer Ordnung umsetzen

Was bezeichnet die Regressionsdiagnostik? Nenne alle Unterpunkte.

Prüfung der Annahmen der Regressionsanalyse

  • 1.1 Korrekte Spezifikation des Modells
  • 1.2 Messfehlerfreiheit der UVs
  • 1.3 Homoskedasziität
  • 1.4 Unabhängigkeit der Residuen
  • 1.5 Normalverteilung der Residuen

& Identifikation von Problematischen Datensituationen

  • 2.1 Ausreißer und einflussreiche Datenpunkte
  • 2.2 Multikollinearität
  • 2.3 Fehlende Werte

Beschreibe, was wichtig an der korrekten Spezifukation des Models ist und nenne die Konsequenzen, wenn diese Annahme verletzt ist. 

Merkmale:

  • Keine relevanten Variablen ausgelassen („underfitting")
  • Keine irrelevanten Variablen aufgenommen („overfitting“)
  • gute theoretische Überlegungen nötig, bereits im Vorfeld mögliche konfundierende Variablen identifizieren und berücksichtigen

Konsequenzen bei Verletzung: 

  • Verzerrte Schätzung der Regressionsgewichte
  • Erhöhter Prognosefehler
  • Verringerte Teststärke 
  • Falsche Schlussfolgerungen

Was ist die LOWESS-ANpassungslinie? 

Die Lowess-Anpassungslinie ist ein Glättungsverfahren, welches kurvlineare Verfahren aufdeckt 

Wie kann man Messfehler aufdecken, wie geht man mit ihnen umgehen und was sind die Konsequenzen von Messfehlern in UVs? 

Aufdeckung und Umgang mit Messfehlern:

  • Bestimmung der Reliabilität der UVs
  • Modelle mit latenten Variablen verwenden

Konsequenzen von Messfehlern in den UVs:

  • Unterschätzung des wahren Regressionsgewichts (in einfacher Regression)
  • Verzerrte Schätzung der Regressionsgewichte (in multipler Regression)

Definiere Homoskedaszitität, beschreibe wie man sie prüft, welche Konsequezen bei Verletzung auftreten und wie man damit umgeht.

Homoskedastizität: Varianz der Residuen in der Population hängt nicht von den Ausprägungen der UV‘s ab

Prüfung: Breusch-Pagan-Test, Residuenplots überprüfen, Studentisiertes ausgeschlossenes Residuum 

Konsequenzen bei Verletzung: Trotzdem erwartungstreue Schätzung der Parameter, Verzerrte Schätzung der Standardfehler

 Lösung: Huber-White Standardfehler, Weighted Least Squares

Wann ist die Annahme der Unabhängigkeit von Residuen verletzt? Nenne Konsequenzen bei Verletzung, Prüfung sowie Lösungen. 

Annahme ist verletzt: bei geschachtelter Datenstruktur, Einzellfallanalysen, mehrstufigen Auswahlverfahren, serialer Abhängigkeit

Konsequenzen: Trotzdem erwartungstreue Schätzung der Parameter, Standardfehler werden unterschätzt, Ökologische Fehlschlüsse

Prüfung: Intraklassenkorrelation, Durbin-Watson-Test

Lösung: Hierarchisch lineare Modelle, Zeitreihenanalytische Verfahren, Klumpen-ID

Beschreibe welche Konsequenzen bei nicht-Normalverteilung der Resiudzen auftreten, wie man die Verletzung der Annahme prüft und welche Lösungen es gibt. 

Konsequenzen bei Verletzung: Unverzerrte Schätzung der Regressionsgewichte, Verzerrte Schätzung der Standardfehler in kleinen Stchproben

Prüfung: Shapiro-Wilk-Test, heuristische Verfahren (Histogramm studentisierter Residuen, P-P-Plot, Q-Q-Plot) 

Lösung: Logarithmische Transformation, Poisson-Regression 

Was sind Ausreißer und wie identifiziert man diese auf UV und AV? 

Ausreißer sind Werte die sich stark von restlichen Werten unterscheiden und somit zu Verzerrungen führen können.

Identifikation von Ausreißern auf der UV: Mahalanobis-Distanz, Zentrierte Hebelwerte 

Identifikation von Ausreißern auf der AV: Verteilung der Resiudn betrachten, Absolute werte >3 sollten inspiziert werden, Bonferroni-Korrektur

Was sind einflussreiche Datenpunkte und wie identifiziert msn diese? 

 

Einflussreiche Datenpunkte sind Wertekombinationen einer Person, deren Entfernung aus dem Datensatz die Regressionsparameter stark verändert.

Identifikation: Änderung der Regressionskoeffizienten (DfBETA, DfBETAS), Anderung der vorhergesagten Werte (DfIT, DfITS), Cooks Distanz

Definiere Multikollinearität und nenne die Konsequenzen bei Verletzung sowie Prüfungs- und Lösungsoptionen.

Multikollinearität = Hohe multiple Korrelation einer UV mit anderen UV‘s

Prüfung: Toleranzfaktor (TOL <.10 problematisch), Varianzinflations-Faktor (VIF >10 problematisch

Lösung: Zentrierung, Eliminierung von UVs, Aggregation, Faktorenanalytische Reduktion

Nenne die Konsequenzen und Lösungsansätze bei fehlenden Werten 

Konsequenzen: Wenn Werte nicht MCAR fehlen, führt ein Ausschluss zu einer verzerrten Schätzung von Regressionskoeffizienten und Standardfehlern

Lösung: Schätzverfahren benutzen, die alle verfügbaren Werte verwenden und das Fehlen erklärender Variablen mitberücksichtigen, K-Q-Methode mit multipler Imputation, Full Information Maximum Likelihood-Methode

Wann verwendet man hierarchisch lineare Modelle? 

Die Annahme der Unabhängigkeit von Messwerten ist bei hierarchisch linearen Modellen verletzt (die Messwerte sind nicht zufällig aus der Population gezogen, sondern hängen voneinander ab = hierarchisch geschachtelte Datenstrukturen

Was sind Level1 und Level2 Einheiten? 

Ebenen in hierarchisch linearen Modellen

Level1: kleinste Einheit, einzelner Messwert (z.B. Schulklassen) 

Level2: Kategoriale EInheiten, in denen einzelne Messwerte geschachtelt sind (z.B. Schüler)

Nenne Risiken bei hierarchischen Datenstrukturen

Risiko falscher Schlüsse bei der Interpretation von Zusammenhangs- und Beeinflussungsstrukturen

Risiko falscher Schlüsse bei der inferenzstatistischen Absicherung von Regressionsgewichten

Was versteht man unter dem Simpson-Paradox

Innerhalb der Level-2-Einheiten (z.B. Klassen) kann sich der Zusammenhang zwischen zwei Variablen ganz anders (z.B. mit anderem Vorzeichen) darstellen als über alle Level-2- Einheiten hinweg (d.h. ohne Berücksichtigung der Schachtelung)

Dabei scheint es, dass die Bewertung verschiedener Gruppen unterschiedlich ausfällt, je nachdem ob man die Ergebnisse der Gruppen kombiniert oder nicht.

Was versteht man unter dem ökologischen Fehlschluss

Einen ökologischen Fehlschluss begeht man, wenn man einen Zusammenhang oder Effekt, der auf der Ebene von Level-2-Einheiten gefunden wurde, fälschlicherweise auf der Ebene von Level-1- Einheiten interpretiert

= Vertauschen von Levels

Was versteht man unter der Intraklassenkorrelation und wie wird sie berechnet? 

Anhand der Intraklassen-Korrelation („intraclass correlation“, ICC) kann der Anteil der Varianz zwischen Level-2-Einheiten an der Gesamtvarianz einer Variable bestimmt werden 

Hierzu wird die Gesamtvarianz aller Messwerte in zwei Teile zerlegt: einen Anteil, der auf Unterschiede zwischen Level-2- Einheiten zurückgeht und einen Anteil, der auf Unterschiede zwischen Level-1-Einheiten zurückgeh

Die ICC variiert zwischen 0 und 1 und drückt aus, wie ähnlich sich zwei Werte sind, die aus der gleichen Level-2-Einheit stammen 

Um welches Modell handelt es sich hier und was sind seine Eigenschaften? 

Intercept-Only-Modell  ~ 3 Aspekte 

  • ("leeres Modell", beeinhaltet keine UVs
  • dient lediglich dazu, die Messwerte der AV zu zerlegen, um die Anteile der Varianz auf Ebene 1 und 2 zu bestimmen 

Um welches Modell handelt es sich und was sind seine Eigenschaften? 

Random-Intercept-Modell (RIM) ~ 4 Aspekte

  • beinhaltet UVs auf Ebene 1
  • erlaubt auf Ebene 2 Variation in den Achsenabschnitten, aber nicht in den Regressionsgewichten

 

Um welches Modell handelt es sich und was sind seine Eigenschaften? 

Random-Slope-Modell (RSM) ~ 5 Aspekte

  • erlaubt Variation in den Regressionsgewichten
  • & Kovariation zwischen den Achsenabschnitten und Regressionsgewichten 

Nenne die Unterschiede zwischen Modellen mit Level1-UVs und Level2-UVs 

Modelle mit Level-1-UVs: berücksichtigen nur UVs auf der "unteren" Ebene/ Level-1 (z.B. Stimmung an einem Tag) 

Modelle mit Level-2-UVs: UVs auf Ebene 2 (z.B. Persönlichkeit) können ggf. erklären, warum die Achsenabschnitte und Regressionsgewichte zwischen den Level-2-Einheiten varrieren (Varianz der Level-2 Residuen kann verringert werden) 

Um welches Modell handelt es sich und was sind seine EIgenschaften? 

Modell mit festem Level-1- und Level-2 Effekt ~ 6 Aspekte

  • In das Random-Slopes-Modell wird eine UV auf Level 2 eingefügt (Z), um die Unterschiede in den personenspezifischen Achsenabschnitten zu erklären -> Prüfung, ob z den Effekr von x auf y moderiert

 

Um welches Modell handelt es sich und was sind seine Eigenschaften?

 

Modell mit Cross-Level-Interaktionseffekt (CLI) ~ 7 Aspekte

Die UV auf Level-2 (Z) wird zusätzlich als Prädiktor der personenspezifischen Regressionsgewichte eingefügt -> Prüfung, ob Z den Effekt von X auf Y moderiert

Was ist die Maximum-Likelihood-Methode und wie funktioniert sie? 

 

= iteratives (schrittweises) Verfahren zur Schätzung der Parameter

  1. Auswahl der Parameter für plausible Startwerte, Berechnung der Wahrscheinlichkeit, bei Geltung dieser Werte die beobachteten Daten zu erhalten ("Likelihood-Funktion")
  2. Parameter schrittweise verändern, dass Likelihood-Funktion immer größer wird 
  3. Das Verfahren "konvergiert" (stimmt überein), wenn die Verbesserung einen kritischen Wert unterschreitet (d.h. die Parameter gefunden wurden, bei deren Geltung die Wahrscheinlichkeit der beobachteten Daten maximal ist) 

2 Ansätze:

  1. Full-Maximum-Likelihood-FUnktion (FML, simultane Schätzung des festen und zufälligen Teils) &
  2. Restricted-Maximum-Funktion (RML, zuerst Schätzung des zufälligen Teils, dann des festen Teils)