PHB WS18/19
Kartei Details
Karten | 52 |
---|---|
Lernende | 14 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 19.01.2019 / 06.02.2023 |
Weblink |
https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Wo ist das Risiko einer Verletzung der Unabhängigkeit der Residuen besonders groß?
In Klumpenstichproben oder mehrstufigen Auswahlverfahren und
in Einzelfalluntersuchen, wo seriale Abhängigkeit vorliegt
Unabhängigkeit der Residuen bei Klumpenstichproben oder mehrstufigen Auswahlverfahren
Konsequenzen bei Verletzung:
1. Schätzung der Parameter weiterhin erwartungstreu
2. Standardfehler unterschätzt (sodass Effekte fälschlicherweise signifikant werden)
--> optimalerweise HLM verwenden!
--> bei wenigen Klumpen kann Zugehörigkeit auch anhand von Kodiervariablen kodiert und als UV aufgenommen werden
Unabhängigkeit der Residuen bei Einzelfalluntersuchungen / serialer Abhängigkeit
Autokorrelation = Korrelation eines Merkmals mit seiner zeitversetzt wiederholten Messung
Konsequenzen:
1. Regressionsgewichte werden unverzerrt geschätzt
2. Standardfehler nicht korrekt
--> optimalerweise zeitreihenanalytische Verfahren verwenden
Wie kann die Normalverteilung von Residuen geprüft werden?
Entweder Shapiro-Wilk-Test oder heuristische Verfahren, wie:
1. Histogramm der studentisierten Residuen
--> x-Achse: studentisiertes Residuum, y-Achse: Häufigkeit
2. Probability-Probability-Plot
--> x-Achse: geschätzte kumulierte Wahrscheinlichkeiten der studentisierten Residuen
--> y-Achse: gemäß Normalverteilung erwartete kumulierte Wahrscheinlichkeiten der studentisierten Residuen
3. Quantile-Quantile-Plot
--> wie PP-Plot, nur dass statt kumulierten Wahrscheinlichkeiten die Quantile der Verteilung verwendet werden
Wie sollte man mit einer verletzten Normalverteilungsannahme umgehen?
Konsequenzen:
- Regressionsgewichte unverzerrt geschätzt
- bei kleinen Stichproben Standardfehler nicht korrekt
--> wenn Fehlspezifikation des Modells ausgeschlossen, dann:
----> Datentransformation (logarithmische Transformation um Abweichung von Normalverteilung zu verringern)
----> Rückgriff auf andere Regressionsmodelle (Poisson-Regression bei individuellen Häufigkeiten)
Was sind Ausreißer und wie können diese identifiziert werden?
Werte, die...
- sich stark von den restlichen Werten unterscheiden
- sowohl in UVs als auch in AVs auftreten
- Parameterschätzung verzerren können
--> Aufdeckung auf UVs durch Mahalanobis-Distanz und zentrierten Hebelwert
--> Aufdeckung auf AVs durch Betrachtung der Verteilung der Residuen (studentisiertes ausgeschlossenes Residuum sollte bei absolutem Wert > 3 genauer inspiziert werden)
Was sind einflussreiche Datenpunkte und wie können diese identifiziert werden?
...Wertekombinationene einer Person, deren Entfernung aus dem Datensatz die Schätzung der Regressionsparameter stark verändert
Aufdeckung durch:
1. Änderung der Regressionskoeffizienten (DfBETA, DfBETAS-Werte)
2. Änderung der vorhergesagten Werte (DfFIT, DfFITS-Werte)
3. Cooks Distanz (quadrierte DfFITS-Werte)
Wie kann man mit Ausreißern und einflussreichen Datenpunkten umgehen?
1. Ausschluss
- wenn Werte auf Fehler zurückführbar sind (z.B. Eingabefehler, Boykott, Missverständnisse)
- wenn für Person vermutlich andere Prozesse gelten als für Rest der Stichprobe (z.B. Bill Gates bei Einkommen)
2. Einschluss
- wenn Ausreißer selten, aber zulässig und wenig einflussreich ist
3. Klären:
- ob Modell fehlspezifiziert ist
4. Wahl eines robusten Regressionsverfahrens
- reagiert wenig sensitiv auf Ausreißer und einflussreiche Werte
Was versteht man unter Multikollinearität und wie wird sie identifiziert?
= hohe multiple Korrelation einer UV mit anderen UVs
Kosequenzen:
- führt zu großem Standardfehler des Regressionsgewichts
- unpräzise Schätzung
Aufdeckung:
- Toleranzfaktor (TOL) < .10
- Varianzinflationsfaktor (VIF) > 10
Vier Schritte zur Behebung des Multikollinearitätsproblems:
1. Zentrierung von UVs
2. Eliminierung von UVs
3. Aggregation von UVs
4. Faktorenanalytische Regression
Warum klärt die Moderatorvariable immer nur 3-8% Varianz auf?
- die Produktvariablen sind messfehlerbehafteter
-> führt zu Verringerung der Teststärke
---> vorhandene Moderatoreffekte werden manchmal nicht entdeckt
Was sind die Ziele der multiplen linearen Regression?
- Prädiktion / Vorhersage von Merkmalsausprägungen
- Beschreibung von komplexen gerichteten Zusammenhängen
- Berücksichtigung von Redundanzen (zwischen UVs)
- Kontrolle von Störvariablen
Voraussetzungen der multiplen Regression:
- mehrere UVs (Prädiktor)
- eine metrische AV (Kriterium)
Warum kann die multiple lineare Regression auch als kompensatorisches Modell bezeichnet werden?
Niedrige Werte auf einer UV können durch hohe Werte auf anderen UVs ausgeglichen werden.
Was unterscheidet die Interpretation der Regressionsgewichte einer multiplen linearen Regression von der einer einfachen?
- Die Regressionsgewichte entsprechen nur dann den Gewichten aus k separaten (einfachen) Regressionsanalysen, wenn die UVs unabhängig sind.
- Zur Bestimmung der Regressionsgewichte müssen daher Korrelationen der UVs mitberücksichtigt werden
- Bei mehr als zwei UVs ist die Bestimmung kompliziert und wird matrixalgebraisch vorgenommen
Wie lautet die Modellgleichung für eine multiple Regression mit mehreren ( = k) UVs?
Y = b0 + b1 * X1 + b2 * X2 + ... + bj * Xj + ... + bk * Xk + E
bj * Xj = UV
b0 = Intercept
E = Residuum
Was ändert sich an der Regressionsgleichung, wenn es nicht mehr um die Stichprobe, sondern um die Parameter der gesamten Population handelt?
Es werden griechische Buchstaben (Beta) verwendet
Auf welche zwei Arten kann das multiple Regressionsgewicht interpretiert werden?
1. ...als Regressionsgewicht einer bedingten einfachen Regressionsanalyse
2. ...als Regressionsgewicht zweier Regressionsresiduen ("Partialregressionsgewicht")
Was unterscheidet die Semipartialkorrelation/Partialkorrelation von der multiplen Regression?
Bei der Partial- und Semipartialkorrelation werden ungerichtete Zusammenhänge zwischen zwei Variablen bereinigt.
Bei der multiplen Regression werden gerichtete/systematische Zusammenhänge zwischen den Variablen bereinigt
--> Richtung = Prognose oder Erklärung
Wie definiert man den Determinationskoeffizienten der multiplen Regression?
- standardisiertes Maß zu Güte der Vorhersage
- Anteil der aufgeklärten (systematischen) Varianz an der Gesamtvarianz
- entspricht der quadrierten multiplen Korrelation von beobachtetem und vorhergesagtem Wert (rxy^2)
- Anteil der Varianz der AV, der durch lineare Regression aufgeklärt werden kann
- Summe der quadrierten Semipartialkorrelationen zunehmend höherer Ordnung
- liegt zwischen 0 und 1
Was versteht man unter der inkrementellen Varianz?
Nützlichkeit
Beschreibe die Nützlichkeit
- entspricht der inkrementellen Varianz (Delta R²)
- ergibt sich aus der quadrierten Semipartialkorrelation höchster Ordnung
- Anteil wahrer Varianz von Y, die eine Variable X1 zusätzlich über alle anderen Variablen hinaus erklärt
Welche Schätzer in der multiplen Regression sind erwartungstreu, welche hingegen nicht?
erwartungstreu:
1. Regressionskoeffizienten der Stichprobe sind erwartungstreue Schätzer der Populationsparameter (b0 = beta0, b1 = beta1)
erwartungstreu, nach Korrektur:
2. zur Schätzung des Standardschätzfehlers müssen Freiheitsgrade entsprechend der Anzahl der Regressiongsgewichte angepasst werden
nicht erwartungstreu:
3. multipler Determinationskoeffizient in Stichprobe kein erwartungstreuer Schätzer des Populations-Determinationskoeffizienten
Welche beiden Strategien zur Testung einzelner Regressionsgewichte gibt es?
- Schätzung durch multiple Regression
- Modellvergleich
Auf welchen Kriterien basiert die theoretische Auswahl von UVs?
- theoretische Relevanz
- kausale Priorität
- pragmatische Gesichtspunkte (z.B. Kostengünstigkeit)
Welche Arten der datengesteuerten Auswahl der UVs gibt es?
-
- 1 / 52
-