PHB WS18/19
Set of flashcards Details
Flashcards | 52 |
---|---|
Students | 14 |
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 19.01.2019 / 06.02.2023 |
Weblink |
https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression
|
Embed |
<iframe src="https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wie kann die Normalverteilung von Residuen geprüft werden?
Entweder Shapiro-Wilk-Test oder heuristische Verfahren, wie:
1. Histogramm der studentisierten Residuen
--> x-Achse: studentisiertes Residuum, y-Achse: Häufigkeit
2. Probability-Probability-Plot
--> x-Achse: geschätzte kumulierte Wahrscheinlichkeiten der studentisierten Residuen
--> y-Achse: gemäß Normalverteilung erwartete kumulierte Wahrscheinlichkeiten der studentisierten Residuen
3. Quantile-Quantile-Plot
--> wie PP-Plot, nur dass statt kumulierten Wahrscheinlichkeiten die Quantile der Verteilung verwendet werden
Wie sollte man mit einer verletzten Normalverteilungsannahme umgehen?
Konsequenzen:
- Regressionsgewichte unverzerrt geschätzt
- bei kleinen Stichproben Standardfehler nicht korrekt
--> wenn Fehlspezifikation des Modells ausgeschlossen, dann:
----> Datentransformation (logarithmische Transformation um Abweichung von Normalverteilung zu verringern)
----> Rückgriff auf andere Regressionsmodelle (Poisson-Regression bei individuellen Häufigkeiten)
Was sind Ausreißer und wie können diese identifiziert werden?
Werte, die...
- sich stark von den restlichen Werten unterscheiden
- sowohl in UVs als auch in AVs auftreten
- Parameterschätzung verzerren können
--> Aufdeckung auf UVs durch Mahalanobis-Distanz und zentrierten Hebelwert
--> Aufdeckung auf AVs durch Betrachtung der Verteilung der Residuen (studentisiertes ausgeschlossenes Residuum sollte bei absolutem Wert > 3 genauer inspiziert werden)
Was sind einflussreiche Datenpunkte und wie können diese identifiziert werden?
...Wertekombinationene einer Person, deren Entfernung aus dem Datensatz die Schätzung der Regressionsparameter stark verändert
Aufdeckung durch:
1. Änderung der Regressionskoeffizienten (DfBETA, DfBETAS-Werte)
2. Änderung der vorhergesagten Werte (DfFIT, DfFITS-Werte)
3. Cooks Distanz (quadrierte DfFITS-Werte)
Wie kann man mit Ausreißern und einflussreichen Datenpunkten umgehen?
1. Ausschluss
- wenn Werte auf Fehler zurückführbar sind (z.B. Eingabefehler, Boykott, Missverständnisse)
- wenn für Person vermutlich andere Prozesse gelten als für Rest der Stichprobe (z.B. Bill Gates bei Einkommen)
2. Einschluss
- wenn Ausreißer selten, aber zulässig und wenig einflussreich ist
3. Klären:
- ob Modell fehlspezifiziert ist
4. Wahl eines robusten Regressionsverfahrens
- reagiert wenig sensitiv auf Ausreißer und einflussreiche Werte
Was versteht man unter Multikollinearität und wie wird sie identifiziert?
= hohe multiple Korrelation einer UV mit anderen UVs
Kosequenzen:
- führt zu großem Standardfehler des Regressionsgewichts
- unpräzise Schätzung
Aufdeckung:
- Toleranzfaktor (TOL) < .10
- Varianzinflationsfaktor (VIF) > 10
Vier Schritte zur Behebung des Multikollinearitätsproblems:
1. Zentrierung von UVs
2. Eliminierung von UVs
3. Aggregation von UVs
4. Faktorenanalytische Regression
Warum klärt die Moderatorvariable immer nur 3-8% Varianz auf?
- die Produktvariablen sind messfehlerbehafteter
-> führt zu Verringerung der Teststärke
---> vorhandene Moderatoreffekte werden manchmal nicht entdeckt