PHB WS18/19


Fichier Détails

Cartes-fiches 52
Utilisateurs 14
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 19.01.2019 / 06.02.2023
Lien de web
https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression
Intégrer
<iframe src="https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie kann die Normalverteilung von Residuen geprüft werden?

Entweder Shapiro-Wilk-Test oder heuristische Verfahren, wie:

1. Histogramm der studentisierten Residuen

--> x-Achse: studentisiertes Residuum, y-Achse: Häufigkeit

2. Probability-Probability-Plot

--> x-Achse: geschätzte kumulierte Wahrscheinlichkeiten der studentisierten Residuen

--> y-Achse: gemäß Normalverteilung erwartete kumulierte Wahrscheinlichkeiten der studentisierten Residuen

3. Quantile-Quantile-Plot

--> wie PP-Plot, nur dass statt kumulierten Wahrscheinlichkeiten die Quantile der Verteilung verwendet werden

Wie sollte man mit einer verletzten Normalverteilungsannahme umgehen?

Konsequenzen:

- Regressionsgewichte unverzerrt geschätzt

- bei kleinen Stichproben Standardfehler nicht korrekt

 

--> wenn Fehlspezifikation des Modells ausgeschlossen, dann:

----> Datentransformation (logarithmische Transformation um Abweichung von Normalverteilung zu verringern)

----> Rückgriff auf andere Regressionsmodelle (Poisson-Regression bei individuellen Häufigkeiten)

Was sind Ausreißer und wie können diese identifiziert werden?

Werte, die...

- sich stark von den restlichen Werten unterscheiden

- sowohl in UVs als auch in AVs auftreten

- Parameterschätzung verzerren können

--> Aufdeckung auf UVs durch Mahalanobis-Distanz und zentrierten Hebelwert

--> Aufdeckung auf AVs durch Betrachtung der Verteilung der Residuen (studentisiertes ausgeschlossenes Residuum sollte bei absolutem Wert > 3 genauer inspiziert werden)

Was sind einflussreiche Datenpunkte und wie können diese identifiziert werden?

...Wertekombinationene einer Person, deren Entfernung aus dem Datensatz die Schätzung der Regressionsparameter stark verändert

Aufdeckung durch:

1. Änderung der Regressionskoeffizienten (DfBETA, DfBETAS-Werte)

2. Änderung der vorhergesagten Werte (DfFIT, DfFITS-Werte)

3. Cooks Distanz (quadrierte DfFITS-Werte)

Wie kann man mit Ausreißern und einflussreichen Datenpunkten umgehen?

1. Ausschluss

- wenn Werte auf Fehler zurückführbar sind (z.B. Eingabefehler, Boykott, Missverständnisse)

- wenn für Person vermutlich andere Prozesse gelten als für Rest der Stichprobe (z.B. Bill Gates bei Einkommen)

2. Einschluss

- wenn Ausreißer selten, aber zulässig und wenig einflussreich ist

3. Klären:

- ob Modell fehlspezifiziert ist

4. Wahl eines robusten Regressionsverfahrens

- reagiert wenig sensitiv auf Ausreißer und einflussreiche Werte

Was versteht man unter Multikollinearität und wie wird sie identifiziert?

= hohe multiple Korrelation einer UV mit anderen UVs

Kosequenzen: 

- führt zu großem Standardfehler des Regressionsgewichts

- unpräzise Schätzung

Aufdeckung:

- Toleranzfaktor (TOL) < .10

- Varianzinflationsfaktor (VIF) > 10

Vier Schritte zur Behebung des Multikollinearitätsproblems:

1. Zentrierung von UVs

2. Eliminierung von UVs

3. Aggregation von UVs

4. Faktorenanalytische Regression

Warum klärt die Moderatorvariable immer nur 3-8% Varianz auf?

- die Produktvariablen sind messfehlerbehafteter

-> führt zu Verringerung der Teststärke

---> vorhandene Moderatoreffekte werden manchmal nicht entdeckt

Tabelle bei Dummycodierung

Referenzkategorie wird auf Null gesetzt

Tabelle bei ungewichteter Effektkodierung

Referenzkategorie auf -1

Tabelle bei gewichteter Effektkodierung

Referenzkategorie wird auf berechneten Wert gesetzt

APA-Interpretation in R bei Dummycodierung