Lernkartei Multivariate Statistik und Datenanalyse: Logistische Regression

Karten	21
Lernende	11
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	30.01.2019 / 02.04.2021
Weblink	https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression
Einbinden	<iframe src="https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wann wird die logistische Regression eingesetzt und was ist ihr Ziel?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

In den bisherigen Regressionsanalysen wurde angenommen, dass die AV metrisch skaliert ist

Spezialfal: Logistische Regression zur Prädiktion einer kategorialen AV (bei uns: dichotome AV)

Welche 3 Darstellungsformen des Zusammenhangs zwischen UV und AV (von Wahrscheinlichkeiten) gibt es?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

→ drei Möglichkeiten die AV „metrisch zu skalieren“:

Bedingte Wahrscheinlichkeitsfunktion:

– Beispiel: Hängt die Wahrscheinlichkeit, schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Bedingte Wettquotientenfunktion

– Beispiel: Hängt die Chance (bzw. der Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Bedingte Logitfunktion

– Beispiel: Hängt der Logit (d.h. der logarithmierte Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?

Warum kann bei kategorialer AV keine lineare Funktion verwendet werden?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Würde man eine lineare Funktion verwenden, ergäben sich bei einer metrischen UV mit unbeschränktem Wertebereich theoretisch unmögliche Werte (d.h. bedingte Wahrscheinlichkeiten < 0 oder > 1)

-> Im Unterschied dazu strebt die Exponentialfunktion gegen 0, wenn X gegen minus unendlich strebt, und gegen 1, wenn X gegen plus unendlich strebt

Die Residuen von dichotomen Variablen können nicht normalverteilt sein (da es nur zwei Ausprägungen gibt)

Die bedingten Varianzen der Residuen hängen bei dichotomen AVs von der Ausprägung der UV ab (d.h. die Annahme der Homoskedastizität ist verletzt)

Was ist der Wettquotient (die Chance)?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Ein Wettquotient bzw. eine Chance („odds“) ist dasVerhältnis aus der

- Wahrscheinlichkeit eines Ereignisses P (Y = 1 | X) und

- seiner Gegenwahrscheinlichkeit 1 − P(Y=1| X).

Das Modell der logistischen Regression lässt sich auch als bedingte Wettquotientenfunktion darstellen (siehe Abbildung)

Wie können die Regressionsgewichte einer logistischen Regression definiert werden?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

_b1= Steigung der Wahrscheinlichkeitsfunktion (KEINE Interpretation wie üblich)

e^b₁= Veränderung der Chance um den Faktor, wenn X (UV) um eine Einheit steigt.

_{b1 =}Erwartete Veränderung des Logits, wenn X (UV) um eine Einheit steigt.

Welche Methoden dienen der Parameterprüfung bei der logistischen Regression?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Die Parameter (d.h. die Regressionskoeffizenten) sowie ihre Standardfehler werden mit der Maximum-Likelihood-Methode geschätzt.

Einzelne Parameter können mit dem z-Test, Wald-Test oder Likelihood-Ratio-Test auf Signifikanz geprüft werden

-> z-Test und Wald-Test führen zum selben Ergebnis, haben bei großen Ausprägungen der Parameter (in der Population) oder kleinen Stichproben aber eine geringere Teststärke als der Likelihood-Ratio-Test

Mehrere oder alle Parameter können mit dem multivariaten Wald-Test oder dem Likelihood-Ratio- Test auf Signifikanz geprüft werden.

Welche Vorschläge für die Bestimmung der Modellgüte werden bei der logistischen Regression verwendet?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Es gibt kein generell anerkanntes, globales Maß für die Modellgüte (sondern nur verschiedene Vorschläge):

- McFadden-Index: Erklärungskraft des Modells im Vergleich zu einem perfekten(„saturierten“) Modell

- Cox-Snell-Index: Erklärungskraft des Modells im Vergleich zu einem Nullmodell (d.h. einem Modell ohne UVs)

- Nagelkerke-Index: Auf einen Wertebereich von 0 bis 1 reskalierter Cox-Snell-Index

Warum lässt sich in der logistischen Regression kein Determinationskoeffizient bestimmen?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Da sich die AV nicht in eine Linearkombination aus UV und Residualvariablen zerlegen lässt

Häufig wird daher zur Bewertung der Effektstärke auf die Koeffizienten (e hoch Beta 1; die odd ratios) fokussiert.

Wie können Personen anhand der Logistischen Regression klassifiziert werden?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Die logistische Regression kann auch zur Klassifikation von Personen herangezogen werden!

- Hierzu werden anhand der Regressionsgleichung und der Werte der UVs die Wahrscheinlichkeiten geschätzt, mit der für eine Person die beiden Kategorien der AV jeweils zutreffen

- Die Person wird dann der Klasse von Personen (bzw. der Ausprägung der AV) zugeordnet, für die ihre Wahrscheinlichkeit maximal ist

Wie wird die Güte der Klassifikation geprüft?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Anhand der Trefferquote (d.h. anhand dem Anteil der Personen, die richtig klassifiziert wurden)

Vor welchem Hintergrund sollte die Trefferquote beurteilt werden?

Die Trefferquote sollte vor dem Hintergrund der Trefferquote eines Modells ohne UVs, d.h. der relativen Häufigkeiten der beiden Kategorien beurteilt werden.

Modells ohne UVs --> Nullmodell

Welche Voraussetzungen zur Durchführung einer logistischen Regression müssen erfüllt sein?

- Korrekte Spezifikation des Modells (d.h. alle relevanten UVs sind enthalten und die Form der bedingten Wahrscheinlichkeitsfunktion ist korrekt)

- AV ist bedingt binomialverteilt gegeben die Ausprägungen der UVs

- unabhängige Beobachtungen

- hinreichend große Stichprobe (möglichst n >100)

Wie können Verletzungen der Voraussetzungen der LR überprüft werden?

Die Verletzung von Voraussetzungen kann anhand von Methoden der Regressionsdiagnostik überprüft werden (weitgehend analog zur linearen Regression)

Spezifisch für die logistische Regressionsanalysen sind:

– Methoden zur Prüfung der Gültigkeit der Form der bedingten Wahrscheinlichkeitsfunktion (z.B. Hosmer-Lemeshow-Test)

– Methoden zur Aufdeckung von vollständiger Separierbarkeit, d.h. perfekter Vorhersage (z.B. Kontingenztabellen)

Warum spricht man in der LR nur von „semi-standardisierte“ Regressionsgewichten und was geben diese an?

Im Unterschied zur linearen Regression ist die Bestimmung von standardisierten Koeffizienten nicht so einfach möglich.

-> Hierzu müsste man die Logit-Variable standardisieren, was kompliziert ist

Wenn überhaupt, werden bei der logistischenRegression „semi-standardisierte“ Regressionsgewichte angegeben, für die lediglich die UV z-transformiert wird

-> Sie geben an, inwiefern sich der bedingte Logit verändert, wenn man den Wert der UV um eine Standardabweichung erhöht

Bedeutung des Parameters

Wie ist die Bedeutung des Regressionsgewichtes in der Wahrscheinlichkeitsfunktion?

Der Parameter b1 bestimmt die Steigung der Wahrscheinlichkeitsfunktion:

- bei b1 > 0 steigt die Funktion monoton an

- bei b1 < 0 fällt sie monoton ab

- bei b1 =0 ist sie eine Konstante

-> Unterschiede zwischen Werten auf X wirken sich am Wendepunkt stärker aus

-> Je größer der Betrag von b1, desto stärker wirken sich Unterschiede zwischen Werten auf X aus

-> Bei X= −b0/ b1 ist die bedingte Wahrscheinlichkeit gleich 0.5.

Wie ist die Bedeutung des Regressionsgewichtes in der Chance?

Der Parameter e^b1 gibt die Veränderung der Chance an, wenn die UV um eine Einheit erhöht wird

Er entspricht einem Wettquotientenverhältnis („odds ratio“), d.h. dem Faktor, um den sich die Chance bei Zunahme der UV (um eine Einheit) verändert (siehe Abbildung):

Bedeutung der Regressionskonstante der Wahrscheinlichkeitsfunktion, wenn b1 auf 1 festgelegt wurde.

Der Parameter b0 bestimmt die Wahrscheinlichkeit, dass Y den Wert 1 annimmt, wenn X=0 ist

-> Je größer b0 , desto größer die Wahrscheinlichkeit

Wie lauten die jeweiligen Chancen?

1. Wie lautet die Trefferquote?

2. Spezifität? Senisvität?

Eine Konfusionsmatrix gibt uns Auskünft über die Trefferquote bei einem bestimmten Schwellenwert.

Trefferquote: Wie viel Prozent der Personen wir auf Basis dieser Prognose ihrer tatsächlichen Kategorie zuordnen.

-> Trefferquoute sollte vor dem Hintergrund der Trefferquote des Nullmodells (ohne UVs) beurteilt werden. (D.h. der Trefferquote, wenn alle Probanden der häufigeren der beiden Kategorien zugeteilt werden.)

Sensitivität: Wie viel Prozent der tatsächlich Migrantenfeindlichen wurden als solche erkannt?

Spezifität: Wie viel Prozent der tatsächlich NICHT Migrantenfeindlichen wurden als solche erkannt?

Positive Predictive Value (PPV):Wie hoch ist die Wahrscheinlichkeit, dass ein als migrantenfeindlich klassifizierter, tatsächlich migranten-feindlich ist?

Negative Predictive Value (NPV): Wie hoch ist die Wahrscheinlichkeit, dass ein als nicht migrantenfeindlich klassifizierter, tatsächlich nicht migrantenfeindlich ist?

Was ist der Unterschied zwischen bedingten Wahrscheinlichkeiten und bedingten Wettquotienten?

Bedingte Wahrscheinlichkeit für das Auftreten Merkmals für eine Person (-> Vorhersage für eine Person)

Bedingten Wettquotienten: Verhältnis von Wahrscheinlichkeit zu Gegenwahrscheinlichkeit (Auftreten des Merkmals) z.B. bei Gruppenvergleich von Chancen

Auf eine Person mit Y=1 kommen N Personen mit Y=0.

Multivariate Statistik und Datenanalyse: Logistische Regression

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google