PHB WS18/19


Kartei Details

Karten 52
Lernende 14
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 19.01.2019 / 06.02.2023
Weblink
https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression
Einbinden
<iframe src="https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_mutliple_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was sind die Ziele der multiplen linearen Regression?

- Prädiktion /  Vorhersage von Merkmalsausprägungen

- Beschreibung von komplexen gerichteten Zusammenhängen

- Berücksichtigung von Redundanzen (zwischen UVs)

- Kontrolle von Störvariablen

Voraussetzungen der multiplen Regression:

- mehrere UVs (Prädiktor)

- eine metrische AV (Kriterium)

Warum kann die multiple lineare Regression auch als kompensatorisches Modell bezeichnet werden?

Niedrige Werte auf einer UV können durch hohe Werte auf anderen UVs ausgeglichen werden.

Was unterscheidet die Interpretation der Regressionsgewichte einer multiplen linearen Regression von der einer einfachen?

- Die Regressionsgewichte entsprechen nur dann den Gewichten aus k separaten (einfachen) Regressionsanalysen, wenn die UVs unabhängig sind.

- Zur Bestimmung der Regressionsgewichte müssen daher Korrelationen der UVs mitberücksichtigt werden

- Bei mehr als zwei UVs ist die Bestimmung kompliziert und wird matrixalgebraisch vorgenommen

Wie lautet die Modellgleichung für eine multiple Regression mit mehreren ( = k) UVs?

Y = b0 + b1 * X1 + b2 * X2 + ... + bj * Xj + ... + bk * Xk + E

 

bj * Xj = UV

b0 = Intercept

E = Residuum

Was ändert sich an der Regressionsgleichung, wenn es nicht mehr um die Stichprobe, sondern um die Parameter der gesamten Population handelt?

Es werden griechische Buchstaben (Beta) verwendet

Auf welche zwei Arten kann das multiple Regressionsgewicht interpretiert werden?

1. ...als Regressionsgewicht einer bedingten einfachen Regressionsanalyse

2. ...als Regressionsgewicht zweier Regressionsresiduen ("Partialregressionsgewicht")

Was unterscheidet die Semipartialkorrelation/Partialkorrelation von der multiplen Regression?

Bei der Partial- und Semipartialkorrelation werden ungerichtete Zusammenhänge zwischen zwei Variablen bereinigt.

Bei der multiplen Regression werden gerichtete/systematische Zusammenhänge zwischen den Variablen bereinigt

--> Richtung = Prognose oder Erklärung

Wie definiert man den Determinationskoeffizienten der multiplen Regression?

- standardisiertes Maß zu Güte der Vorhersage

- Anteil der aufgeklärten (systematischen) Varianz an der Gesamtvarianz

- entspricht der quadrierten multiplen Korrelation von beobachtetem und vorhergesagtem Wert (rxy^2)

- Anteil der Varianz der AV, der durch lineare Regression aufgeklärt werden kann

- Summe der quadrierten Semipartialkorrelationen zunehmend höherer Ordnung

- liegt zwischen 0 und 1

Was versteht man unter der inkrementellen Varianz?

Nützlichkeit

Beschreibe die Nützlichkeit

- entspricht der inkrementellen Varianz (Delta R²)

- ergibt sich aus der quadrierten Semipartialkorrelation höchster Ordnung

- Anteil wahrer Varianz von Y, die eine Variable X1 zusätzlich über alle anderen Variablen hinaus erklärt

Welche Schätzer in der multiplen Regression sind erwartungstreu, welche hingegen nicht?

 

erwartungstreu:

1. Regressionskoeffizienten der Stichprobe sind erwartungstreue Schätzer der Populationsparameter (b0 = beta0, b1 = beta1)

erwartungstreu, nach Korrektur:

2. zur Schätzung des Standardschätzfehlers müssen Freiheitsgrade entsprechend der Anzahl der Regressiongsgewichte angepasst werden

nicht erwartungstreu:

3. multipler Determinationskoeffizient in Stichprobe kein erwartungstreuer Schätzer des Populations-Determinationskoeffizienten

 

Welche beiden Strategien zur Testung einzelner Regressionsgewichte gibt es?

- Schätzung durch multiple Regression

- Modellvergleich

Auf welchen Kriterien basiert die theoretische Auswahl von UVs?

- theoretische Relevanz

- kausale Priorität

- pragmatische Gesichtspunkte (z.B. Kostengünstigkeit)

Welche Arten der datengesteuerten Auswahl der UVs gibt es?

Was ist Überanpassung und welche Gefahr birgt sie?

Bei Aufnahme nicht signifikanter UVs kann "overfitting" an Stichprobendaten entstehen.

Die Stichprobe klärt dann zwar mehr Varianz in der AV auf,

-> die Prognosegüte aber verschlechtert sich!

Welche Verfahren gibt es, um die Prognosegüte nach Zusammenstellung der UVs zu überprüfen?

1. Ziehen einer neuen Stichprobe (ideal, aber meistens zu aufwendig)

2. Kreuvalidierung

--> a)  "2-fold" Kreuzvalidierung

      b) "Leave-one-out" Kreuzvalidierung

Was versteht man unter Suppression und Suppressorvariable?

- Die Nützlichkeit einer UV ist größer als ihre (quadrierte) Korrelation mit der AV.

- Die Supressorvariable ist eine Variable, deren Einbezug als Prädiktor in das Regressionsmodell dazu führt, dass sich das Regressionsgewicht einer anderen UV erhöht oder sich dessen Vorzeichen ändert.

Welche Bedingungen müssen bei der klassischen Suppression erfüllt sein?

1. Suppressorvariable X2 mit AV Y unkorreliert   -->   rX2Y = 0

2. Suppressorvariable X2 mit anderer UV X1 signifikant korreliert

3. quadrierte mutliple Korrelation (quadrierte Semipartialkorrelation) ist größer, als quadrierte bivariate Korrelation zwischen X1 und Y

heißt: eine UV ist zwar mit einer anderen UV korreliert, nicht aber mit der AV!

Was bedeuten b0, b1 und b2 bei der Dummycodierung?

 

- b0 = Mittelwert der AV in Referenzkategorie

Bsp.: Einkommen und Schuhgröße --> Im Durchschnitt beträgt das Einkommen (AV) von Personen mit großer Schuhgröße 0 (0, da z-transformierte Variablen)

 

- b1 = Differenz zwischen Mittelwert der Kategorie mit X1 = 1 (Person mit kleiner Schuhgröße) und Mittelwert der Referenzkategorie

Bsp.: Das durchschnittliche Einkommen ist bei Personen mit kleiner Schuhgröße (X1) um 0.132 SD größer als bei Personen großer Schuhgrößen.

 

- b2 = Differenz zwischen Mittelwert der Kategorie mit X2 = 1 (Person mit mittlerer Schuhgröße) und Mittelwert der Referenzkategorie

Bsp.: Das durchschnittliche Einkommen ist bei Personen mit mittlerer Schuhgröße um 0.001 SD größer, als bei Personen großer Schuhgrößen.

Was bedeuten b0, b1 und b2 bei der ungewichteten Effektkodierung?

- b0 = ungewichteter Mittelwert der Mittelwerte über alle Kategorien hinweg

Bsp.: Der ungewichtete Mittelwert der Mittelwerte beträgt 0 (da z-transformiert)

 

- b1 = Differenz zwischen Mittelwert der Kategorie mit X1 (Personen mit kleiner Schuhgröße) und dem ungewicheten Mittelwert über alle Kategorien hinweg

Bsp.: Der Mittelwert des Einkommens der Personen mit kleiner Schuhgröße ist um 0.08 SD größer, als der Mittelwert der Mittelwerte.

 

- b2 = Differenz zwischen Mittelwert der Kategorie mit X2 (mittlere Schuhgröße) und gewichtetem Mittelwert über alle Kategorien hinweg

Bsp.: Der Mittelwert des Einkommens der Personen mit mittlerer Schuhgröße ist um 0.04 SD kleiner, als der Mittelwert der Mittelwerte.

Was bedeuten b0, b1 und b2 bei der gewichteten Effektkodierung?

- b0 = Gesamtmittelwert der AV (gewichtet = aller Personen)

Bsp.: Der gewichtete Gesamtmittelwert  des Einkommens beträgt 0 (da z-transformiert)

 

- b1 = Differenz zwischen Kategorie mit X1 (kleine Schuhgrößen) und Gesamtmittelwert

Bsp.: Der Mittelwert im Einkommen von Personen mit kleiner Schuhgröße ist um 0.08 SD größer als der Gesamtmittelwert des Einkommens.

 

- b2 = Differenz zwischen Mittelwert der Kategorie mit X2 (Personen mit mittlerer Schuhgröße) und dem Gesamtmittelwert.

Bsp.: Der Mittelwert im Einkommen von Personen mittlerer Schuhgrößen ist um 0.05 SD kleiner, als der Gesamtmittelwert des Einkommens.

Wann verwendet man eine moderierte lineare Regression?

... um zu berücksichtigen, dass der Effekt einer UV auf eine AV von einer weiteren UV abhängig sein kann.

Was bedeutet der markierte Term in der Gleichung?

Moderatoreffekt, wobei X1 * X2 die Produktvariable darstellt.

Wie lassen sich die Regressionsgewichte bei einer moderierten Regression interpretieren?

a) Gewichte einfacher Regression, bei denen alle anderen UVs = 0 sind

--> meistens keine sinnvolle Interpretation möglich, deswegen werden Variablen zentriert, dann:

b) Gewichte einfacher Regression bei durchschnittlicher Ausprägung aller anderen UVs

Zentriert man die Variablen bei einer moderierten Regression, ...

a) ...verändert sich der Achsenabschnitt, sowie b1 und b2 (UV) Regressionsgewichte und deren Standardfehler

 

b) ...bleibt gleich:

1. b3 Regressionsgewicht der Produktvariablen, sowie sein Standardfehler

2. bedingte Regressionsgeraden

3. Korrelation zwischen UVs X1 und X2

 

c) ...wird geringer:

1. Standardfehler von b1 und b2, da Schätzung in Mitte der Verteilung präziser

2. Korrelation der Produktvariablen mit den UVs

Welche beiden äquivalenten Strategien zur Prüfung eines Moderatoreffektes gibt es?

1. Prüfung des Regressionsgewichts b3 der Produktvariablen anhand t-verteilter Prüfgröße

--> H0 = Es gibt keinen Moderatoreffekt (b3 = 0)

2. Determinationskoeffizient R² im Modellvergleich anhand F-verteilter Prüfgröße

--> eingeschränktes Modell (ohne Produktvariable) vs uneingeschränktes Modell (mit Produktvariable)

Wann wird die polynomische Regression verwendet?

Wenn ein nicht-linearer Zusammenhang zwischen X1 und Y besteht.

--> kann quadratisch (u-förmig) oder kubisch sein

---> z.B. Zusammenhang zwischen Zufriedenheit mit dem Seminar und wahrgenommener Anforderung

Wie sieht die Gleichung der polynomischen Regression aus?

Welche Voraussetzungen für die Durchführung einer Regressionsanalyse müssen erfüllt sein?

1. Korrekte Spezifikation des Modells

2. Messfehlerfreiheit der UVs

3. Homoskedastizität

4. Unabhängigkeit der Residuen

5. Normalverteilung der Residuen

Ein problematische Datensituation äußert sich durch...

1. Ausreißer und einflussreiche Datenpunkte

2. Multikollinearität

3. fehlende Werte

Wie kann geprüft werden, ob ein Modell korrekt spezifiziert ist?

- es darf keine relevanten Variablen auslassen ("underfitting")

- es darf keine irrelevanten Variablen aufnehmen ("overfitting")

--> Konsequenz wäre eine falsche Spezifikation

Welche Konsequenzen einer falschen Spezifikation ergeben sich?

1. verzerrte Schätzung der Regressionsgewichte

2. erhöhter Prognosefehler (PRESS Summe der quadrierten Abweichungen zwischen vorhergesagtem und beobachteten Wert)

3. verringerte Teststärke

4. falsche Schlussfolgerungen

Wozu dient das LOWESS-Anpassungsverfahren?

- Glättungsverfahren zur Aufdeckung von underfitting

--> für jeden Wert xm werden z.B. 20% anderer Werte drumherum betrachtet und eine mini-Regressionsgerade hindurchgelegt

--> es entsteht im besten Fall ein der erwarteten Kurve entsprechendes Bild

Welche Konsequenzen können sich durch Messfehler in den UVs ergeben und wie können diese berücksichtigt werden?

Konsequenzen:

- Unterschätzung der wahren Regressionsgewichte (in einfacher Regression)

- verzerrte Schätzung der Regressionsgewichte (in multipler Regression)

 

Aufdeckung:

- Bestimmung der Reliabilitäten der UVs

 

Umgang:

Verwendung von Modellen mit latenten Variablen

Was versteht man unter Heteroskedastizität und wie erkennt man sie?

= Gegenteil von Homoskedastizität = Varianz der Residuen in der Population hängt nicht von den Ausprägungen der UVs ab

Konsequenzen:

1. Schätzungen der Parameter weiterhin erwartungstreu

2. aber Standardfehler verzerrt

Bestimmung:

- Residuenplots (metrische UVs) oder Levene-test (kategoriale UVs, darf nicht signifikant werden, sonst Heteroskedastizität)

- Breusch-Pagan-Test

--> Nullhypothese = Homo- / Alternativhypothese = Heteroskedastizität

----> darf also nicht signifikant werden!

 

Wie wird mit Heteroskedastizität umgegangen?

Bei sehr großen Stichproben und gravierender Verletzung:

Rückgriff auf das Gewichtete-Kleinste-Quadrate-Schätzverfahren (weightet least square, WLS)

-> jeder quadrierte Abweichungswert wird mit einem individuellen Wert w_m gewichtet und die Summe der gewichteten quadrierten Abweichungen minimiert

--> das Gewicht w_m entspricht 1 geteilt durch die Residualvarianz, die für die jeweilige Konstellation von Werten auf den UVs geschätzt wird (ziemlich aufwendig)

Wo ist das Risiko einer Verletzung der Unabhängigkeit der Residuen besonders groß?

In Klumpenstichproben oder mehrstufigen Auswahlverfahren und

in Einzelfalluntersuchen, wo seriale Abhängigkeit vorliegt

Unabhängigkeit der Residuen bei Klumpenstichproben oder mehrstufigen Auswahlverfahren

Konsequenzen bei Verletzung:

1. Schätzung der Parameter weiterhin erwartungstreu

2. Standardfehler unterschätzt (sodass Effekte fälschlicherweise signifikant werden)

--> optimalerweise HLM verwenden!

--> bei wenigen Klumpen kann Zugehörigkeit auch anhand von Kodiervariablen kodiert und als UV aufgenommen werden

Unabhängigkeit der Residuen bei Einzelfalluntersuchungen / serialer Abhängigkeit

Autokorrelation = Korrelation eines Merkmals mit seiner zeitversetzt wiederholten Messung

Konsequenzen:

1. Regressionsgewichte werden unverzerrt geschätzt

2. Standardfehler nicht korrekt

--> optimalerweise zeitreihenanalytische Verfahren verwenden