PHB WS 18/19
Kartei Details
Karten | 21 |
---|---|
Lernende | 11 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 30.01.2019 / 02.04.2021 |
Weblink |
https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190130_multivariate_statistik_und_datenanalyse_logistische_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Wann wird die logistische Regression eingesetzt und was ist ihr Ziel?
In den bisherigen Regressionsanalysen wurde angenommen, dass die AV metrisch skaliert ist
Spezialfal: Logistische Regression zur Prädiktion einer kategorialen AV (bei uns: dichotome AV)
Welche 3 Darstellungsformen des Zusammenhangs zwischen UV und AV (von Wahrscheinlichkeiten) gibt es?
→ drei Möglichkeiten die AV „metrisch zu skalieren“:
Bedingte Wahrscheinlichkeitsfunktion:
– Beispiel: Hängt die Wahrscheinlichkeit, schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?
Bedingte Wettquotientenfunktion
– Beispiel: Hängt die Chance (bzw. der Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?
Bedingte Logitfunktion
– Beispiel: Hängt der Logit (d.h. der logarithmierte Wettquotient), schon einmal Tiere gequält zu haben, von der Empathiefähigkeit ab?
Warum kann bei kategorialer AV keine lineare Funktion verwendet werden?
Würde man eine lineare Funktion verwenden, ergäben sich bei einer metrischen UV mit unbeschränktem Wertebereich theoretisch unmögliche Werte (d.h. bedingte Wahrscheinlichkeiten < 0 oder > 1)
-> Im Unterschied dazu strebt die Exponentialfunktion gegen 0, wenn X gegen minus unendlich strebt, und gegen 1, wenn X gegen plus unendlich strebt
Die Residuen von dichotomen Variablen können nicht normalverteilt sein (da es nur zwei Ausprägungen gibt)
Die bedingten Varianzen der Residuen hängen bei dichotomen AVs von der Ausprägung der UV ab (d.h. die Annahme der Homoskedastizität ist verletzt)
Was ist der Wettquotient (die Chance)?
Wie können die Regressionsgewichte einer logistischen Regression definiert werden?
Welche Methoden dienen der Parameterprüfung bei der logistischen Regression?
Die Parameter (d.h. die Regressionskoeffizenten) sowie ihre Standardfehler werden mit der Maximum-Likelihood-Methode geschätzt.
Einzelne Parameter können mit dem z-Test, Wald-Test oder Likelihood-Ratio-Test auf Signifikanz geprüft werden
-> z-Test und Wald-Test führen zum selben Ergebnis, haben bei großen Ausprägungen der Parameter (in der Population) oder kleinen Stichproben aber eine geringere Teststärke als der Likelihood-Ratio-Test
Mehrere oder alle Parameter können mit dem multivariaten Wald-Test oder dem Likelihood-Ratio- Test auf Signifikanz geprüft werden.
Welche Vorschläge für die Bestimmung der Modellgüte werden bei der logistischen Regression verwendet?
Es gibt kein generell anerkanntes, globales Maß für die Modellgüte (sondern nur verschiedene Vorschläge):
- McFadden-Index: Erklärungskraft des Modells im Vergleich zu einem perfekten(„saturierten“) Modell
- Cox-Snell-Index: Erklärungskraft des Modells im Vergleich zu einem Nullmodell (d.h. einem Modell ohne UVs)
- Nagelkerke-Index: Auf einen Wertebereich von 0 bis 1 reskalierter Cox-Snell-Index
Warum lässt sich in der logistischen Regression kein Determinationskoeffizient bestimmen?
Wie können Personen anhand der Logistischen Regression klassifiziert werden?
Die logistische Regression kann auch zur Klassifikation von Personen herangezogen werden!
- Hierzu werden anhand der Regressionsgleichung und der Werte der UVs die Wahrscheinlichkeiten geschätzt, mit der für eine Person die beiden Kategorien der AV jeweils zutreffen
- Die Person wird dann der Klasse von Personen (bzw. der Ausprägung der AV) zugeordnet, für die ihre Wahrscheinlichkeit maximal ist
Wie wird die Güte der Klassifikation geprüft?
Anhand der Trefferquote (d.h. anhand dem Anteil der Personen, die richtig klassifiziert wurden)
Vor welchem Hintergrund sollte die Trefferquote beurteilt werden?
Die Trefferquote sollte vor dem Hintergrund der Trefferquote eines Modells ohne UVs, d.h. der relativen Häufigkeiten der beiden Kategorien beurteilt werden.
Modells ohne UVs --> Nullmodell
Welche Voraussetzungen zur Durchführung einer logistischen Regression müssen erfüllt sein?
- Korrekte Spezifikation des Modells (d.h. alle relevanten UVs sind enthalten und die Form der bedingten Wahrscheinlichkeitsfunktion ist korrekt)
- AV ist bedingt binomialverteilt gegeben die Ausprägungen der UVs
- unabhängige Beobachtungen
- hinreichend große Stichprobe (möglichst n >100)
Wie können Verletzungen der Voraussetzungen der LR überprüft werden?
Die Verletzung von Voraussetzungen kann anhand von Methoden der Regressionsdiagnostik überprüft werden (weitgehend analog zur linearen Regression)
Spezifisch für die logistische Regressionsanalysen sind:
– Methoden zur Prüfung der Gültigkeit der Form der bedingten Wahrscheinlichkeitsfunktion (z.B. Hosmer-Lemeshow-Test)
– Methoden zur Aufdeckung von vollständiger Separierbarkeit, d.h. perfekter Vorhersage (z.B. Kontingenztabellen)
Warum spricht man in der LR nur von „semi-standardisierte“ Regressionsgewichten und was geben diese an?
Im Unterschied zur linearen Regression ist die Bestimmung von standardisierten Koeffizienten nicht so einfach möglich.
-> Hierzu müsste man die Logit-Variable standardisieren, was kompliziert ist
Wenn überhaupt, werden bei der logistischenRegression „semi-standardisierte“ Regressionsgewichte angegeben, für die lediglich die UV z-transformiert wird
-> Sie geben an, inwiefern sich der bedingte Logit verändert, wenn man den Wert der UV um eine Standardabweichung erhöht
Wie ist die Bedeutung des Regressionsgewichtes in der Wahrscheinlichkeitsfunktion?
Der Parameter b1 bestimmt die Steigung der Wahrscheinlichkeitsfunktion:
- bei b1 > 0 steigt die Funktion monoton an
- bei b1 < 0 fällt sie monoton ab
- bei b1 =0 ist sie eine Konstante
-> Unterschiede zwischen Werten auf X wirken sich am Wendepunkt stärker aus
-> Je größer der Betrag von b1, desto stärker wirken sich Unterschiede zwischen Werten auf X aus
-> Bei X= −b0/ b1 ist die bedingte Wahrscheinlichkeit gleich 0.5.
Wie ist die Bedeutung des Regressionsgewichtes in der Chance?
Eine Konfusionsmatrix gibt uns Auskünft über die Trefferquote bei einem bestimmten Schwellenwert.
Trefferquote: Wie viel Prozent der Personen wir auf Basis dieser Prognose ihrer tatsächlichen Kategorie zuordnen.
-> Trefferquoute sollte vor dem Hintergrund der Trefferquote des Nullmodells (ohne UVs) beurteilt werden. (D.h. der Trefferquote, wenn alle Probanden der häufigeren der beiden Kategorien zugeteilt werden.)
Sensitivität: Wie viel Prozent der tatsächlich Migrantenfeindlichen wurden als solche erkannt?
Spezifität: Wie viel Prozent der tatsächlich NICHT Migrantenfeindlichen wurden als solche erkannt?
Positive Predictive Value (PPV):Wie hoch ist die Wahrscheinlichkeit, dass ein als migrantenfeindlich klassifizierter, tatsächlich migranten-feindlich ist?
Negative Predictive Value (NPV): Wie hoch ist die Wahrscheinlichkeit, dass ein als nicht migrantenfeindlich klassifizierter, tatsächlich nicht migrantenfeindlich ist?
Was ist der Unterschied zwischen bedingten Wahrscheinlichkeiten und bedingten Wettquotienten?
Bedingte Wahrscheinlichkeit für das Auftreten Merkmals für eine Person (-> Vorhersage für eine Person)
Bedingten Wettquotienten: Verhältnis von Wahrscheinlichkeit zu Gegenwahrscheinlichkeit (Auftreten des Merkmals) z.B. bei Gruppenvergleich von Chancen
Auf eine Person mit Y=1 kommen N Personen mit Y=0.
-
- 1 / 21
-