PHB WS18/19
Kartei Details
Karten | 52 |
---|---|
Lernende | 14 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 19.01.2019 / 06.02.2023 |
Weblink |
https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was sind die Ziele der multiplen linearen Regression?
- Prädiktion / Vorhersage von Merkmalsausprägungen
- Beschreibung von komplexen gerichteten Zusammenhängen
- Berücksichtigung von Redundanzen (zwischen UVs)
- Kontrolle von Störvariablen
Voraussetzungen der multiplen Regression:
- mehrere UVs (Prädiktor)
- eine metrische AV (Kriterium)
Warum kann die multiple lineare Regression auch als kompensatorisches Modell bezeichnet werden?
Niedrige Werte auf einer UV können durch hohe Werte auf anderen UVs ausgeglichen werden.
Was unterscheidet die Interpretation der Regressionsgewichte einer multiplen linearen Regression von der einer einfachen?
- Die Regressionsgewichte entsprechen nur dann den Gewichten aus k separaten (einfachen) Regressionsanalysen, wenn die UVs unabhängig sind.
- Zur Bestimmung der Regressionsgewichte müssen daher Korrelationen der UVs mitberücksichtigt werden
- Bei mehr als zwei UVs ist die Bestimmung kompliziert und wird matrixalgebraisch vorgenommen
Wie lautet die Modellgleichung für eine multiple Regression mit mehreren ( = k) UVs?
Y = b0 + b1 * X1 + b2 * X2 + ... + bj * Xj + ... + bk * Xk + E
bj * Xj = UV
b0 = Intercept
E = Residuum
Was ändert sich an der Regressionsgleichung, wenn es nicht mehr um die Stichprobe, sondern um die Parameter der gesamten Population handelt?
Es werden griechische Buchstaben (Beta) verwendet
Auf welche zwei Arten kann das multiple Regressionsgewicht interpretiert werden?
1. ...als Regressionsgewicht einer bedingten einfachen Regressionsanalyse
2. ...als Regressionsgewicht zweier Regressionsresiduen ("Partialregressionsgewicht")
Was unterscheidet die Semipartialkorrelation/Partialkorrelation von der multiplen Regression?
Bei der Partial- und Semipartialkorrelation werden ungerichtete Zusammenhänge zwischen zwei Variablen bereinigt.
Bei der multiplen Regression werden gerichtete/systematische Zusammenhänge zwischen den Variablen bereinigt
--> Richtung = Prognose oder Erklärung
Wie definiert man den Determinationskoeffizienten der multiplen Regression?
- standardisiertes Maß zu Güte der Vorhersage
- Anteil der aufgeklärten (systematischen) Varianz an der Gesamtvarianz
- entspricht der quadrierten multiplen Korrelation von beobachtetem und vorhergesagtem Wert (rxy^2)
- Anteil der Varianz der AV, der durch lineare Regression aufgeklärt werden kann
- Summe der quadrierten Semipartialkorrelationen zunehmend höherer Ordnung
- liegt zwischen 0 und 1
Was versteht man unter der inkrementellen Varianz?
Nützlichkeit
Beschreibe die Nützlichkeit
- entspricht der inkrementellen Varianz (Delta R²)
- ergibt sich aus der quadrierten Semipartialkorrelation höchster Ordnung
- Anteil wahrer Varianz von Y, die eine Variable X1 zusätzlich über alle anderen Variablen hinaus erklärt
Welche Schätzer in der multiplen Regression sind erwartungstreu, welche hingegen nicht?
erwartungstreu:
1. Regressionskoeffizienten der Stichprobe sind erwartungstreue Schätzer der Populationsparameter (b0 = beta0, b1 = beta1)
erwartungstreu, nach Korrektur:
2. zur Schätzung des Standardschätzfehlers müssen Freiheitsgrade entsprechend der Anzahl der Regressiongsgewichte angepasst werden
nicht erwartungstreu:
3. multipler Determinationskoeffizient in Stichprobe kein erwartungstreuer Schätzer des Populations-Determinationskoeffizienten
Welche beiden Strategien zur Testung einzelner Regressionsgewichte gibt es?
- Schätzung durch multiple Regression
- Modellvergleich
Auf welchen Kriterien basiert die theoretische Auswahl von UVs?
- theoretische Relevanz
- kausale Priorität
- pragmatische Gesichtspunkte (z.B. Kostengünstigkeit)
Welche Arten der datengesteuerten Auswahl der UVs gibt es?
Was ist Überanpassung und welche Gefahr birgt sie?
Bei Aufnahme nicht signifikanter UVs kann "overfitting" an Stichprobendaten entstehen.
Die Stichprobe klärt dann zwar mehr Varianz in der AV auf,
-> die Prognosegüte aber verschlechtert sich!
Welche Verfahren gibt es, um die Prognosegüte nach Zusammenstellung der UVs zu überprüfen?
1. Ziehen einer neuen Stichprobe (ideal, aber meistens zu aufwendig)
2. Kreuvalidierung
--> a) "2-fold" Kreuzvalidierung
b) "Leave-one-out" Kreuzvalidierung
Was versteht man unter Suppression und Suppressorvariable?
- Die Nützlichkeit einer UV ist größer als ihre (quadrierte) Korrelation mit der AV.
- Die Supressorvariable ist eine Variable, deren Einbezug als Prädiktor in das Regressionsmodell dazu führt, dass sich das Regressionsgewicht einer anderen UV erhöht oder sich dessen Vorzeichen ändert.
Welche Bedingungen müssen bei der klassischen Suppression erfüllt sein?
1. Suppressorvariable X2 mit AV Y unkorreliert --> rX2Y = 0
2. Suppressorvariable X2 mit anderer UV X1 signifikant korreliert
3. quadrierte mutliple Korrelation (quadrierte Semipartialkorrelation) ist größer, als quadrierte bivariate Korrelation zwischen X1 und Y
heißt: eine UV ist zwar mit einer anderen UV korreliert, nicht aber mit der AV!
- b0 = Mittelwert der AV in Referenzkategorie
Bsp.: Einkommen und Schuhgröße --> Im Durchschnitt beträgt das Einkommen (AV) von Personen mit großer Schuhgröße 0 (0, da z-transformierte Variablen)
- b1 = Differenz zwischen Mittelwert der Kategorie mit X1 = 1 (Person mit kleiner Schuhgröße) und Mittelwert der Referenzkategorie
Bsp.: Das durchschnittliche Einkommen ist bei Personen mit kleiner Schuhgröße (X1) um 0.132 SD größer als bei Personen großer Schuhgrößen.
- b2 = Differenz zwischen Mittelwert der Kategorie mit X2 = 1 (Person mit mittlerer Schuhgröße) und Mittelwert der Referenzkategorie
Bsp.: Das durchschnittliche Einkommen ist bei Personen mit mittlerer Schuhgröße um 0.001 SD größer, als bei Personen großer Schuhgrößen.
- b0 = ungewichteter Mittelwert der Mittelwerte über alle Kategorien hinweg
Bsp.: Der ungewichtete Mittelwert der Mittelwerte beträgt 0 (da z-transformiert)
- b1 = Differenz zwischen Mittelwert der Kategorie mit X1 (Personen mit kleiner Schuhgröße) und dem ungewicheten Mittelwert über alle Kategorien hinweg
Bsp.: Der Mittelwert des Einkommens der Personen mit kleiner Schuhgröße ist um 0.08 SD größer, als der Mittelwert der Mittelwerte.
- b2 = Differenz zwischen Mittelwert der Kategorie mit X2 (mittlere Schuhgröße) und gewichtetem Mittelwert über alle Kategorien hinweg
Bsp.: Der Mittelwert des Einkommens der Personen mit mittlerer Schuhgröße ist um 0.04 SD kleiner, als der Mittelwert der Mittelwerte.
Was bedeuten b0, b1 und b2 bei der gewichteten Effektkodierung?
- b0 = Gesamtmittelwert der AV (gewichtet = aller Personen)
Bsp.: Der gewichtete Gesamtmittelwert des Einkommens beträgt 0 (da z-transformiert)
- b1 = Differenz zwischen Kategorie mit X1 (kleine Schuhgrößen) und Gesamtmittelwert
Bsp.: Der Mittelwert im Einkommen von Personen mit kleiner Schuhgröße ist um 0.08 SD größer als der Gesamtmittelwert des Einkommens.
- b2 = Differenz zwischen Mittelwert der Kategorie mit X2 (Personen mit mittlerer Schuhgröße) und dem Gesamtmittelwert.
Bsp.: Der Mittelwert im Einkommen von Personen mittlerer Schuhgrößen ist um 0.05 SD kleiner, als der Gesamtmittelwert des Einkommens.
Wie lassen sich die Regressionsgewichte bei einer moderierten Regression interpretieren?
a) Gewichte einfacher Regression, bei denen alle anderen UVs = 0 sind
--> meistens keine sinnvolle Interpretation möglich, deswegen werden Variablen zentriert, dann:
b) Gewichte einfacher Regression bei durchschnittlicher Ausprägung aller anderen UVs
Zentriert man die Variablen bei einer moderierten Regression, ...
a) ...verändert sich der Achsenabschnitt, sowie b1 und b2 (UV) Regressionsgewichte und deren Standardfehler
b) ...bleibt gleich:
1. b3 Regressionsgewicht der Produktvariablen, sowie sein Standardfehler
2. bedingte Regressionsgeraden
3. Korrelation zwischen UVs X1 und X2
c) ...wird geringer:
1. Standardfehler von b1 und b2, da Schätzung in Mitte der Verteilung präziser
2. Korrelation der Produktvariablen mit den UVs
Welche beiden äquivalenten Strategien zur Prüfung eines Moderatoreffektes gibt es?
1. Prüfung des Regressionsgewichts b3 der Produktvariablen anhand t-verteilter Prüfgröße
--> H0 = Es gibt keinen Moderatoreffekt (b3 = 0)
2. Determinationskoeffizient R² im Modellvergleich anhand F-verteilter Prüfgröße
--> eingeschränktes Modell (ohne Produktvariable) vs uneingeschränktes Modell (mit Produktvariable)
Wann wird die polynomische Regression verwendet?
Wenn ein nicht-linearer Zusammenhang zwischen X1 und Y besteht.
--> kann quadratisch (u-förmig) oder kubisch sein
---> z.B. Zusammenhang zwischen Zufriedenheit mit dem Seminar und wahrgenommener Anforderung
Welche Voraussetzungen für die Durchführung einer Regressionsanalyse müssen erfüllt sein?
1. Korrekte Spezifikation des Modells
2. Messfehlerfreiheit der UVs
3. Homoskedastizität
4. Unabhängigkeit der Residuen
5. Normalverteilung der Residuen
Ein problematische Datensituation äußert sich durch...
1. Ausreißer und einflussreiche Datenpunkte
2. Multikollinearität
3. fehlende Werte
Wie kann geprüft werden, ob ein Modell korrekt spezifiziert ist?
- es darf keine relevanten Variablen auslassen ("underfitting")
- es darf keine irrelevanten Variablen aufnehmen ("overfitting")
--> Konsequenz wäre eine falsche Spezifikation
Welche Konsequenzen einer falschen Spezifikation ergeben sich?
1. verzerrte Schätzung der Regressionsgewichte
2. erhöhter Prognosefehler (PRESS Summe der quadrierten Abweichungen zwischen vorhergesagtem und beobachteten Wert)
3. verringerte Teststärke
4. falsche Schlussfolgerungen
Welche Konsequenzen können sich durch Messfehler in den UVs ergeben und wie können diese berücksichtigt werden?
Konsequenzen:
- Unterschätzung der wahren Regressionsgewichte (in einfacher Regression)
- verzerrte Schätzung der Regressionsgewichte (in multipler Regression)
Aufdeckung:
- Bestimmung der Reliabilitäten der UVs
Umgang:
Verwendung von Modellen mit latenten Variablen
Was versteht man unter Heteroskedastizität und wie erkennt man sie?
= Gegenteil von Homoskedastizität = Varianz der Residuen in der Population hängt nicht von den Ausprägungen der UVs ab
Konsequenzen:
1. Schätzungen der Parameter weiterhin erwartungstreu
2. aber Standardfehler verzerrt
Bestimmung:
- Residuenplots (metrische UVs) oder Levene-test (kategoriale UVs, darf nicht signifikant werden, sonst Heteroskedastizität)
- Breusch-Pagan-Test
--> Nullhypothese = Homo- / Alternativhypothese = Heteroskedastizität
----> darf also nicht signifikant werden!
Wie wird mit Heteroskedastizität umgegangen?
Bei sehr großen Stichproben und gravierender Verletzung:
Rückgriff auf das Gewichtete-Kleinste-Quadrate-Schätzverfahren (weightet least square, WLS)
-> jeder quadrierte Abweichungswert wird mit einem individuellen Wert w_m gewichtet und die Summe der gewichteten quadrierten Abweichungen minimiert
--> das Gewicht w_m entspricht 1 geteilt durch die Residualvarianz, die für die jeweilige Konstellation von Werten auf den UVs geschätzt wird (ziemlich aufwendig)
Wo ist das Risiko einer Verletzung der Unabhängigkeit der Residuen besonders groß?
In Klumpenstichproben oder mehrstufigen Auswahlverfahren und
in Einzelfalluntersuchen, wo seriale Abhängigkeit vorliegt
Unabhängigkeit der Residuen bei Klumpenstichproben oder mehrstufigen Auswahlverfahren
Konsequenzen bei Verletzung:
1. Schätzung der Parameter weiterhin erwartungstreu
2. Standardfehler unterschätzt (sodass Effekte fälschlicherweise signifikant werden)
--> optimalerweise HLM verwenden!
--> bei wenigen Klumpen kann Zugehörigkeit auch anhand von Kodiervariablen kodiert und als UV aufgenommen werden
Unabhängigkeit der Residuen bei Einzelfalluntersuchungen / serialer Abhängigkeit
Autokorrelation = Korrelation eines Merkmals mit seiner zeitversetzt wiederholten Messung
Konsequenzen:
1. Regressionsgewichte werden unverzerrt geschätzt
2. Standardfehler nicht korrekt
--> optimalerweise zeitreihenanalytische Verfahren verwenden