PHB Statistik Klausurvorbereitung

Zusammenfassung mögliche Klausurinhalte

Zusammenfassung mögliche Klausurinhalte


Set of flashcards Details

Flashcards 100
Students 11
Language Deutsch
Category Psychology
Level University
Created / Updated 06.02.2019 / 12.02.2024
Weblink
https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung
Embed
<iframe src="https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Nenne 3 mögliche Strategien der Maximum-Likelihood-Methode

  • Modellvergleiche (z.B. mit der R-Funktion anova)
  • F-Tests mit approximativen Freiheitsgraden im Nenner (nur für feste Parameter, z.B. implementiert im R-Paket pbkrtest und lmerTest)
  • Konfidenzintervalle basierend auf der parametrischen Bootstrap-Methode (z.B. mit der R-Funktion confint)

Warum ist die Varianzaufklärung bei Mehrebenenanalysen nicht so einfach möglich? Welche Alternativen gibt es? 

Es gibt nicht nur eine Residualvarianz, sondern Residualvarianzen auf Ebene 1 und 2: Dadurch entstehen verschiedene Möglichkeiten, die Varianzreduktion (die durch die Hinzunahme der UV erreicht wird) zu definieren

Die geschätzte Residualvarianz auf Ebene 2 (d.h. der Achsenabschnitte) kann (verursacht durch Stichprobenfehler) bei Hinzunahme einer UV größer werden (was zu einer scheinbar negativen inkrementellen Varianzaufklärung führen würde)

Alternativen

  • Bestimmung von "Pseudo-R2" Werten (geben an, wie groß die relative Reduktion bestimmter Varianzen durch HInzunahme von UVs ist)
  • Bestimmung des marginalen & konditionalen R2 (zur Quantifizierung der Güte des Gesamtmodells) 

Warum verwendet man logistische Regression? Welche Darstellungsformen gibt es?  

Bisher Annahme, dass AV metrisch skaliert ist. Bei Kategorialer AV -> logistische Regression 

Es gibt die

  • Bedingte Wahrscheinlichkeitsfunktion,
  • Bedingte Wettquotientenfunktion 
  • Bedigte Logitfunktion

Was ist das für eine Funktion? Definiere sie kurz. 

Bedingte Wahrscheinlichkeitsfunktion: Die Wahrscheinlichkeit, dass die AV Y den Wert 1 annimmt, variiert als Funktion der UV X 

Beispiel: Hängt die Wahrscheinlichkeit, schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab? 

Warum wird bei der logistischen Regression keine lineare Funktion verwendet? 

  • Würde man eine lineare Funktion verwenden, ergäben sich bei einer metrischen UV mit unbeschränktem Wertebereich theoretisch unmögliche Werte (d.h. bedingte Wahrscheinlichkeiten < 0 oder > 1)
  • Die Residuen von dichotomen Variablen können nicht normalverteilt sein (da es nur zwei Ausprägungen gibt)
  • Die bedingten Varianzen der Residuen hängen bei dichotomen AVs von der Ausprägung der UV ab (d.h. die Annahme der Homoskedastizität ist verletzt)

Was beschreibt diese Funktion? Definiere sie kurz. 

Bedingte Wettquoptientenfunktion: Die Chance, dass die AV Y den Wert 1 (im Vergleich zum Wert 0) annimmt, variiert als Funktion der UV X 

Beispiel: Hängt die Chance (bzw. der Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Was beschreibt diese Funktion? Definiere Sie kurz. 

Bedingte Logitfunktion: Logit = logarithmierter Wettquotient bzw. Chance 

Beispiel: Hängt der Logit (d.h. der logarithmierte Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Erkläre kurz die Bedeutung des Parameter e�� 1 des bedingten Wettquotienten

Der Parameter e��1 gibt die Veränderung der Chance an, wenn die UV um eine Einheit erhöht wird

Er entspricht einem Wettquotientenverhältnis („odds ratio“), d.h. dem Faktor, um den sich die Chance bei Zunahme der UV (um eine Einheit) verändert.

  • Bei ��1 > 0 (d.h. ����1 > 1) ist der Zusammenhang zwischen und positiv 
  • Bei ��1 < 0 (d.h. ����1 < 1) ist der Zusammenhang zwischen und negativ 
  • Bei ��1 = 0 (d.h. ����1 = 1) gibt es keinen Zusammenhang zwischen und Y

Beschreibe die Bedeutung des Parameter e��0 der bedingten Wettquotientenfunktion

Der Parameter ����0 entspricht der Chance, dass Y den Wert 1 (im Vergleich zum Wert 0) annimmt, wenn X gleich 0 ist

  • Bei ��0 > 0 (d.h. ����0 > 1) ist die Wahrscheinlichkeit 0 für Y = 1 größer als für Y = 0 (d.h. größer 0.5)
  • Bei �� < 0 (d.h. ����0 < 1) ist die Wahrscheinlichkeit für Y = 1 kleiner als für Y = 0 (d.h. kleiner 0.5)
  • Bei �� = 0 (d.h. ����0 = 1) ist die Wahrscheinlichkeit für Y = 1 und Y = 0 gleich (d.h. gleich 0.5)

Wie werden die Parameter in der logistischen Regression geschätzt? 

Die Parameter (d.h. die Regressionskoeffizenten) sowie ihre Standardfehler werden mit der Maximum- Likelihood-Methode geschätzt

Einzelne Parameter können mit dem z-Test, Wald-Test oder Likelihood-Ratio-Test auf Signifikanz geprüft werden

Mehrere oder alle Parameter können mit dem multivariaten Wald-Test oder dem Likelihood-Ratio- Test auf Signifikanz geprüft werden

Wie kann die Modellgüte in der logistischen Regression bestimmt werden? 

Mc-Fadden-Index

Cox-Snell-Index

Nagelkerke-Index

Wie berechne und beurteile ich die Trefferquote in der logistischen Regression? 

  • Die logistische Regression kann auch zur Klassifikation von Personen herangezogen werden
  • Hierzu werden anhand der Regressionsgleichung und der Werte der UVs die Wahrscheinlichkeiten geschätzt, mit der für eine Person die beiden Kategorien der AV jeweils zutreffen
  • Die Person wird dann der Klasse von Personen (bzw. der Ausprägung der AV) zugeordnet, für die ihre Wahrscheinlichkeit maximal ist
  • Die Güte einer Klassifikation wird anhand der Trefferquote beurteilt, d.h. anhand dem Anteil der Personen, die richtig klassifiziert wurden
  • Die Trefferquote sollte vor dem Hintergrund der Trefferquote eines Modells ohne UVs, d.h. der relativen Häufigkeiten der beiden Kategorien beurteilt werden
  • Die Trefferquote sollte im Sinne der Kreuzvalidierung in einer neuen Stichprobe bestimmt werden (d.h. möglichst nicht in der Stichprobe, in der die Regressionsparameter geschätzt wurden)

Warum wird eine Pfadanalyse durchgeführt? 

bisher: Variable ist entweder AV oder UV -> Psychologische Theorien sind komplexer, daher Entwicklung der Pfadanalyse in der Variablen sowohl AV als auch UV sind 

Pfadanalyse: Erweiterung der multiplen Regressionsanalyse -> System von Regressionsmodellen, ermöglicht die Prüfung kompplexer Zusammenhangsstrukturen 

Welche Typen von Variablen gibt es in der Pfadanalyse? 

Exogene Variablen: Unabhängige Variablen, die im Modell nicht erklärt werden (d.h. auf die kein Pfeil trifft und für die keine eigene Regressionsgleichung nötig ist)

Endogene Variablen: Abhängige Variablen, die im Modell erklärt werden (d.h. auf die mindestens ein Pfeil trifft und für die eine eigene Regressionsgleichung nötig ist)

  • Mediatorvariablen: Endogene Variablen, die eine Kausalkette zwischen zwei anderen Variablen herstellen, d.h. die zugleich AV und UV sind

Welche Typen von Effekten gibt es in der Pfadanalyse? 

Direkter Effekt: Effekt einer UV auf eine AV, der nicht über andere Variablen vermittelt wird

  • repräsentiert durch einen einzelnen Pfadkoeffizienten

Indirekter Effekt: Effekt einer UV auf eine AV, der über eine oder mehrere Mediatorvariablen vermittelt wird

  • repräsentiert durch das Produkt aus Pfadkoeffizienten

Totaler Effekt: Gesamteffekt einer UV auf eine AV

  • repräsentiert durch die Summe aus direktem Effekt und indirekten Effekten

Was sind autoregressive Modelle? Erkläre den Unterschied zwischen dem Modell 1. und 2. Ordnung.

autoregressiv = auf sich selbst zurückgehend 

Autoregressive Modelle prüfen, ob die Unterschiede in einem Merkmal zu einem späteren Messzeitpunkt durch Unterschiede in einem früheren Messzeitpunkt durch Unterschiede in einem früheren Messzeitpunkt vorhergesagt werden können.

AR 1. Ordnung: frühere Messzeitpunkte haben keine direkten (sondern höchstens indirekte) Effekte 

AR 2. Ordnung: Die zu erklärende Variable zu einem Messzeitpunkt hängt direkt von mehreren Messzeitpunkten ab (Mediationsmodelle) 

Wie kann man indirekte Effekte in der Pfadanalyse prüfen? 

  • Indirekte (und totale) Effekte setzen sich aus Produkten von Pfadkoeffizienten zusammen und werden in lavaan (und anderen Programmen) nicht automatisch auf Signifikanz geprüft
  • Hierzu muss der indirekte (und ggf. der totale) Effekt in der Modellspezifikation ergänzt werden
  • Da die Stichprobenkennwerteverteilung des indirekten Effekts nicht zwangsläufig symmetrisch ist, wird empfohlen, die Signifikanz anhand von bootstrapping-basierten Konfidenzintervallen zu bestimmen

Wozu verwendet man lineare Strukturgleichungsmodelle

bisherige Annahme in Regressions- und Pfadanalysen: messfehlerfreie Variablen -> dies ist in psychologischer Forschung allerdings unlogisch

Lineare Strukturgleichungsmodelle (SEM) erlauben es, messfehlerbedingte von wahren Einflüssen zu trennen

  • SEM stellen Kombination aus Faktoren- und Pfadanalyse dar 

Definiere und nenne die Unterschiede von Messmodellen und Strukturmodellen

Messmodell: AVs sind beobachtbar, Um Messfehler von wahren Effekten zu trennen, braucht man mindestens zwei Indikatoren (beobachtete Varianlen) pro Konstrukt (latenter Variable) 

Strukturmodell: AVs sind latent, die Gleichungen entsprechen strukturell den Gleichungen zum Pfadmodell mit direktem und indirektem Effekt 

Nenne die 4 Schritte der Schätzung eines linearen Strukturgleichungsmodells

  1. Schätzung eines faktorenanalytischen Basismodells 
  2. Prüfung der Messinvarianz über die Zeit 
  3. Prüfung der Homogenität der Indikatoren 
  4. Prüfung des Strukturmodells