PHB WS 18/19


Kartei Details

Karten 21
Lernende 11
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 30.01.2019 / 02.04.2021
Weblink
https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression
Einbinden
<iframe src="https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wann wird die logistische Regression eingesetzt und was ist ihr Ziel?

In den bisherigen Regressionsanalysen wurde angenommen, dass die AV metrisch skaliert ist

Spezialfal: Logistische Regression zur Prädiktion einer kategorialen AV (bei uns: dichotome AV)

 

 

Welche 3 Darstellungsformen des Zusammenhangs zwischen UV und AV (von Wahrscheinlichkeiten) gibt es?

→ drei Möglichkeiten die AV „metrisch zu skalieren“:

 

Bedingte Wahrscheinlichkeitsfunktion:

– Beispiel: Hängt die Wahrscheinlichkeit, schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

 

Bedingte Wettquotientenfunktion

– Beispiel: Hängt die Chance (bzw. der Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

 

Bedingte Logitfunktion

– Beispiel: Hängt der Logit (d.h. der logarithmierte Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Warum kann bei kategorialer AV keine lineare Funktion verwendet werden? 

Würde man eine lineare Funktion verwenden, ergäben sich bei einer metrischen UV mit unbeschränktem Wertebereich theoretisch unmögliche Werte (d.h. bedingte Wahrscheinlichkeiten < 0 oder > 1)

-> Im Unterschied dazu strebt die Exponentialfunktion gegen 0, wenn X gegen minus unendlich strebt, und gegen 1, wenn X gegen plus unendlich strebt

Die Residuen von dichotomen Variablen können nicht normalverteilt sein (da es nur zwei Ausprägungen gibt)

Die bedingten Varianzen der Residuen hängen bei dichotomen AVs von der Ausprägung der UV ab (d.h. die Annahme der Homoskedastizität ist verletzt)

Was ist der Wettquotient (die Chance)?

Ein Wettquotient bzw. eine Chance („odds“) ist dasVerhältnis aus der

- Wahrscheinlichkeit eines Ereignisses P (Y = 1 | X) und

- seiner Gegenwahrscheinlichkeit 1 − P(Y=1| X).

Das Modell der logistischen Regression lässt sich auch als bedingte Wettquotientenfunktion darstellen (siehe Abbildung)

Wie können die Regressionsgewichte einer logistischen Regression definiert werden? 

b1 = Steigung der Wahrscheinlichkeitsfunktion (KEINE Interpretation wie üblich)

eb= Veränderung der Chance um den Faktor, wenn X (UV) um eine Einheit steigt. 

b1 = Erwartete Veränderung des Logits, wenn X (UV) um eine Einheit steigt. 

 

 

Welche Methoden dienen der Parameterprüfung bei der logistischen Regression?

Die Parameter (d.h. die Regressionskoeffizenten) sowie ihre Standardfehler werden mit der Maximum-Likelihood-Methode geschätzt.

 

Einzelne Parameter können mit dem z-Test, Wald-Test oder Likelihood-Ratio-Test auf Signifikanz geprüft werden

-> z-Test und Wald-Test führen zum selben Ergebnis, haben bei großen Ausprägungen der Parameter (in der Population) oder kleinen Stichproben aber eine geringere Teststärke als der Likelihood-Ratio-Test

Mehrere oder alle Parameter können mit dem multivariaten Wald-Test oder dem Likelihood-Ratio- Test auf Signifikanz geprüft werden.

Welche Vorschläge für die Bestimmung der Modellgüte werden bei der logistischen Regression verwendet?

Es gibt kein generell anerkanntes, globales Maß für die Modellgüte (sondern nur verschiedene Vorschläge):

- McFadden-Index: Erklärungskraft des Modells im Vergleich zu einem perfekten(„saturierten“) Modell

- Cox-Snell-Index: Erklärungskraft des Modells im Vergleich zu einem Nullmodell (d.h. einem Modell ohne UVs)

- Nagelkerke-Index: Auf einen Wertebereich von 0 bis 1 reskalierter Cox-Snell-Index

 

Warum lässt sich in der logistischen Regression kein Determinationskoeffizient bestimmen? 

 

 Da sich die AV nicht in eine Linearkombination aus UV und Residualvariablen zerlegen lässt

Häufig wird daher zur Bewertung der Effektstärke auf die Koeffizienten (e hoch Beta 1; die odd ratios) fokussiert.

Wie können Personen anhand der Logistischen Regression klassifiziert werden?

Die logistische Regression kann auch zur Klassifikation von Personen herangezogen werden!

- Hierzu werden anhand der Regressionsgleichung und der Werte der UVs die Wahrscheinlichkeiten geschätzt, mit der für eine Person die beiden Kategorien der AV jeweils zutreffen

- Die Person wird dann der Klasse von Personen (bzw. der Ausprägung der AV) zugeordnet, für die ihre Wahrscheinlichkeit maximal ist

Wie wird die Güte der Klassifikation geprüft? 

Anhand der Trefferquote (d.h. anhand dem Anteil der Personen, die richtig klassifiziert wurden)

Vor welchem Hintergrund sollte die Trefferquote beurteilt werden?

Die Trefferquote sollte vor dem Hintergrund der Trefferquote eines Modells ohne UVs, d.h. der relativen Häufigkeiten der beiden Kategorien beurteilt werden.

 

Modells ohne UVs --> Nullmodell

Welche Voraussetzungen zur Durchführung einer logistischen Regression müssen erfüllt sein?

- Korrekte Spezifikation des Modells (d.h. alle relevanten UVs sind enthalten und die Form der bedingten Wahrscheinlichkeitsfunktion ist korrekt)

AV ist bedingt binomialverteilt gegeben die Ausprägungen der UVs

- unabhängige Beobachtungen 

- hinreichend große Stichprobe (möglichst >100)

Wie können Verletzungen der Voraussetzungen der LR überprüft werden? 

Die Verletzung von Voraussetzungen kann anhand von Methoden der Regressionsdiagnostik überprüft werden (weitgehend analog zur linearen Regression)

Spezifisch für die logistische Regressionsanalysen sind:

– Methoden zur Prüfung der Gültigkeit der Form der bedingten Wahrscheinlichkeitsfunktion (z.B. Hosmer-Lemeshow-Test)

– Methoden zur Aufdeckung von vollständiger Separierbarkeit, d.h. perfekter Vorhersage (z.B. Kontingenztabellen)

Warum spricht man in der LR nur von „semi-standardisierte“ Regressionsgewichten und was geben diese an? 

Im Unterschied zur linearen Regression ist die Bestimmung von standardisierten Koeffizienten nicht so einfach möglich.

-> Hierzu müsste man die Logit-Variable standardisieren, was kompliziert ist

 

Wenn überhaupt, werden bei der logistischenRegression „semi-standardisierte“ Regressionsgewichte angegeben, für die lediglich die UV z-transformiert wird

-> Sie geben an, inwiefern sich der bedingte Logit verändert, wenn man den Wert der UV um eine Standardabweichung erhöht

Bedeutung des Parameters

Wie ist die Bedeutung des Regressionsgewichtes in der Wahrscheinlichkeitsfunktion?

Der Parameter b1 bestimmt die Steigung der Wahrscheinlichkeitsfunktion:

- bei b1 > 0 steigt die Funktion monoton an

- bei b1 < 0 fällt sie monoton ab

- bei b1 =0 ist sie eine Konstante

 

-> Unterschiede zwischen Werten auf wirken sich am Wendepunkt stärker aus

-> Je größer der Betrag von b1, desto stärker wirken sich Unterschiede zwischen Werten auf aus

-> Bei X= −b0/ b1 ist die bedingte Wahrscheinlichkeit gleich 0.5.

Wie ist die Bedeutung des Regressionsgewichtes in der Chance?

Der Parameter eb1 gibt die Veränderung der Chance an, wenn die UV um eine Einheit erhöht wird

Er entspricht einem Wettquotientenverhältnis („odds ratio“), d.h. dem Faktor, um den sich die Chance bei Zunahme der UV (um eine Einheit) verändert (siehe Abbildung):

 

Bedeutung der Regressionskonstante der Wahrscheinlichkeitsfunktion, wenn b1 auf 1 festgelegt wurde.

 

Der Parameter b0 bestimmt die Wahrscheinlichkeit, dass den Wert 1 annimmt, wenn X=0 ist

-> Je größer b0 , desto größer die Wahrscheinlichkeit

Wie lauten die jeweiligen Chancen?

1. Wie lautet die Trefferquote?

2. Spezifität? Senisvität?

Eine Konfusionsmatrix gibt uns Auskünft über die Trefferquote bei einem bestimmten Schwellenwert.

Trefferquote: Wie viel Prozent der Personen wir auf Basis dieser Prognose ihrer tatsächlichen Kategorie zuordnen.

-> Trefferquoute sollte vor dem Hintergrund der Trefferquote des Nullmodells (ohne UVs) beurteilt werden. (D.h. der Trefferquote, wenn alle Probanden der häufigeren der beiden Kategorien zugeteilt werden.)

Sensitivität: Wie viel Prozent der tatsächlich Migrantenfeindlichen wurden als solche erkannt?

Spezifität: Wie viel Prozent der tatsächlich NICHT Migrantenfeindlichen wurden als solche erkannt?

 

Positive Predictive Value (PPV):Wie hoch ist die Wahrscheinlichkeit, dass ein als migrantenfeindlich klassifizierter, tatsächlich migranten-feindlich ist?

Negative Predictive Value (NPV): Wie hoch ist die Wahrscheinlichkeit, dass ein als nicht migrantenfeindlich klassifizierter, tatsächlich nicht migrantenfeindlich ist?

Was ist der Unterschied zwischen bedingten Wahrscheinlichkeiten und bedingten Wettquotienten?

 

Bedingte Wahrscheinlichkeit für das Auftreten Merkmals für eine Person  (-> Vorhersage für eine Person)

Bedingten Wettquotienten: Verhältnis von Wahrscheinlichkeit zu Gegenwahrscheinlichkeit (Auftreten des Merkmals) z.B. bei Gruppenvergleich von Chancen

Auf eine Person mit Y=1 kommen N Personen mit Y=0.