Multivariate Statistik und Datenanalyse: Logistische Regression

PHB WS 18/19

5.0 (1)

Fichier Détails

Cartes-fiches	21
Utilisateurs	11
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	30.01.2019 / 02.04.2021
Attribution de licence	Non précisé
Lien de web	https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression
Intégrer	<iframe src="https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Mode flip

Wann wird die logistische Regression eingesetzt und was ist ihr Ziel?

In den bisherigen Regressionsanalysen wurde angenommen, dass die AV metrisch skaliert ist

Spezialfal: Logistische Regression zur Prädiktion einer kategorialen AV (bei uns: dichotome AV)

Welche 3 Darstellungsformen des Zusammenhangs zwischen UV und AV (von Wahrscheinlichkeiten) gibt es?

→ drei Möglichkeiten die AV „metrisch zu skalieren“:

Bedingte Wahrscheinlichkeitsfunktion:

– Beispiel: Hängt die Wahrscheinlichkeit, schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Bedingte Wettquotientenfunktion

– Beispiel: Hängt die Chance (bzw. der Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Bedingte Logitfunktion

– Beispiel: Hängt der Logit (d.h. der logarithmierte Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Warum kann bei kategorialer AV keine lineare Funktion verwendet werden?

Würde man eine lineare Funktion verwenden, ergäben sich bei einer metrischen UV mit unbeschränktem Wertebereich theoretisch unmögliche Werte (d.h. bedingte Wahrscheinlichkeiten < 0 oder > 1)

-> Im Unterschied dazu strebt die Exponentialfunktion gegen 0, wenn X gegen minus unendlich strebt, und gegen 1, wenn X gegen plus unendlich strebt

Die Residuen von dichotomen Variablen können nicht normalverteilt sein (da es nur zwei Ausprägungen gibt)

Die bedingten Varianzen der Residuen hängen bei dichotomen AVs von der Ausprägung der UV ab (d.h. die Annahme der Homoskedastizität ist verletzt)

Was ist der Wettquotient (die Chance)?

Ein Wettquotient bzw. eine Chance („odds“) ist dasVerhältnis aus der

- Wahrscheinlichkeit eines Ereignisses P (Y = 1 | X) und

- seiner Gegenwahrscheinlichkeit 1 − P(Y=1| X).

Das Modell der logistischen Regression lässt sich auch als bedingte Wettquotientenfunktion darstellen (siehe Abbildung)

Wie können die Regressionsgewichte einer logistischen Regression definiert werden?

_b1= Steigung der Wahrscheinlichkeitsfunktion (KEINE Interpretation wie üblich)

e^b₁= Veränderung der Chance um den Faktor, wenn X (UV) um eine Einheit steigt.

_{b1 =}Erwartete Veränderung des Logits, wenn X (UV) um eine Einheit steigt.

Welche Methoden dienen der Parameterprüfung bei der logistischen Regression?

Die Parameter (d.h. die Regressionskoeffizenten) sowie ihre Standardfehler werden mit der Maximum-Likelihood-Methode geschätzt.

Einzelne Parameter können mit dem z-Test, Wald-Test oder Likelihood-Ratio-Test auf Signifikanz geprüft werden

-> z-Test und Wald-Test führen zum selben Ergebnis, haben bei großen Ausprägungen der Parameter (in der Population) oder kleinen Stichproben aber eine geringere Teststärke als der Likelihood-Ratio-Test

Mehrere oder alle Parameter können mit dem multivariaten Wald-Test oder dem Likelihood-Ratio- Test auf Signifikanz geprüft werden.

Welche Vorschläge für die Bestimmung der Modellgüte werden bei der logistischen Regression verwendet?

Es gibt kein generell anerkanntes, globales Maß für die Modellgüte (sondern nur verschiedene Vorschläge):

- McFadden-Index: Erklärungskraft des Modells im Vergleich zu einem perfekten(„saturierten“) Modell

- Cox-Snell-Index: Erklärungskraft des Modells im Vergleich zu einem Nullmodell (d.h. einem Modell ohne UVs)

- Nagelkerke-Index: Auf einen Wertebereich von 0 bis 1 reskalierter Cox-Snell-Index

Warum lässt sich in der logistischen Regression kein Determinationskoeffizient bestimmen?

Da sich die AV nicht in eine Linearkombination aus UV und Residualvariablen zerlegen lässt

Häufig wird daher zur Bewertung der Effektstärke auf die Koeffizienten (e hoch Beta 1; die odd ratios) fokussiert.