Logistische Regression

Karten zum Thema "Logistische Regression" aus dem Kurs "Methoden der Skalierung"

Karten zum Thema "Logistische Regression" aus dem Kurs "Methoden der Skalierung"


Kartei Details

Karten 18
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 09.07.2020 / 08.07.2023
Weblink
https://card2brain.ch/box/20200709_logistische_regression
Einbinden
<iframe src="https://card2brain.ch/box/20200709_logistische_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Die logistische Regression ist ein ...

...struktur-prüfendes Verfahren

Welche Skalenniveaus können die Variablen bei der logistischen Regression annehmen? 

  • unabhängige Variable: metrisch
  • abhängige Variable: nominal

Was ist das Ziel der logistischen Regression? 

Statistische Beurteilung des Zusammenhangs zwischen einer nominalskalierten, dichotomen abhängigen Variablen und mindestens einer unabhängigen Variablen:

  • Wovon hängt das Eintreten eines Ereignisses/Zustands bei einem Untersuchungsobjekt ab bzw. wodurch wird das Eintreten beeinflusst?
  • Gewichtungsfunktion, die angibt, welche Prädiktoren/Regressoren die AV wie stark in welche Richtung beeinflussen
  • Wie hoch ist die Wahrscheinlichkeit für das Eintreten des Ereignisses/Zustands bei einem bestimmten Untersuchungsobjekt, wenn man dessen Ausprägungen der unabhängigen Variablen kennt?
  • Beispiele: 
    • Abhängigkeit von Fehlgeburten von den Lebensumständen der Mutter (Alter, Alkoholkonsum, Zigarettenkonsum...)
    • Therapieerfolg in Abhängigkeit von der Dauer der Erkrankung, Dauer der Therapie, des Therapieansatzes
    • Kaufentscheidung für ein Produkt

 

Wie sieht die lineare Regression aus? 

Wie entsteht die logistische Regression aus der linearen Regression? 

Problem

  • für lineare Regression muss AV metrisch skaliert sein
  • Wertebereich der Vorhersage bei der lin. Reg. von -unendlich bis +unendlich und nicht beschränkt auf 0 ≤ p ≥ 1 (unplausible Prognosewerte)
  • Modellspezifikation fragwürdig
    • keine Varianzhomogenität der Residuen
    • Residuen nicht normalverteilt

Ziel: Entwicklung einer Gleichung, die auf der rechten Seite ß01x1i + … +ßkxki enthält und auf der linken Seite einen Ausdruck, der ebenfalls von -unendlich bis +unendlich variiert und der es ermöglicht, eine dichotome Variable einzubinden

 

Wie sieht die logistische Regression aus? 

Was passiert bei der logistischen Regression, wenn xk um eine Einheit zunimmt? 

Wenn xk (unabhängige Variable) um eine Einheit zunimmt, dann steigt Logit p(y=1) um ßk.

In welchen Fällen kann ß0 interpretiert werden? 

ß0 kann nur bei Kohortenstudien interpretiert werden, bei Fall-Kontroll-Studien und Querschnittsstudien müsse Verhältnis Fälle-Kontrollen berücksichtigt werden! 

Wie kommt man auf das background log odd (ß0)? 

Das bachground log odd ergibt sich, wenn alle xi = 0. Also wenn keine Exposition erfolgt ist. 

Was bedeutet ßi?

Die ßi repräsentieren die Veränderungen in Log Odds, die eintreten würden, wenn in einer Variablen ein Änderung um eine Einheit vorgenommen wird, während die Ausprägung der anderen Variablen fixiert werden!!!

Wie sieht die logistische Funktion in der gekürzten Form aus und wofür steht z? 

z = Linearkombination 

 

Welche graphischen Veränderungen bewirken bei der logistischen Funktion verschiedene Veränderungen der Parameter? 

ß0 = -x --> bewirkt Verschiebung der Funktion um x nach rechts 

ß1 = 5 --> Stauchung der Funktion 

ß1 = 1/5 --> Abflachen der Funktion

Was ist das Grundprinzip der logistischen Regression? 

  • Die Logistische Regression modelliert den Wahrscheinlichkeitsübergang einer kategorial (hier binär) ausgeprägten Variablen in Abhängigkeit von der Ausprägung der unabhängigen Variablen (unter Annahme der logistischen Verteilung der Residuen)
  • Ergebnis ist zunächst die Schätzung der Gewichtungsfaktoren ß0, ß1, ß2, ...

Wie lautet die Formel des Effekt-Koeffizienten und wie kann er interpretiert werden? 

Interpretation

  • Die Erhöhung der UV i um eine Einheit bewirkt eine Veränderung der Chance um eßi
  • Wertebereich von 0 bis +unendlich
    • Werte <1: Erhöhung der UV vermindert die Eintrittswahrscheinlichkeit für y=1 gegenüber y=0
    • Werte >1: Erhöhung der UV vergrößert die Eintrittswahrscheinlichkeit für y=1 gegenüber y=0
    • Werte =1: OR bleibt konstant
  • Interpretation des Zahlenwertes nur als Veränderung der Chance!!!

Wie findet man heraus welche UVs Einfluss auf die AV nehmen? 

Prädiktorblöcke

  • Sukzessive Modellerweiterung um Blöcke von Regressoren, wobei mit einem F-Test beurteilt werden kann, ob der zuletzt einbezogene Block eine signifikante Verbesserung der Vorhersage bewirkt hat

Automatische Modellsuche

  • Innerhalb eines Blocks, der auch alle Regressoren umfassen darf, kann man SPSS nach einem guten Modell suchen lassen. Es wird schrittweise anhand von Signifikanztests entschieden, ob Regressoren aufgenommen werden oder nicht
  • Strategien
    • vorwärts: Ausgehend vom Modell ohne Regressoren wird Schritt für Schritt entschieden, ob ein (weiterer) Regressor aufgenommen werden sollte
    • rückwärts: Zunächst werden alle Regressoren aufgenommen, dann wird Schritt für Schritt geprüft, ob ein Regressor entfernt werden sollte.

aber: In der Regel sollte die Modellsuche vom Untersucher nach inhaltlichen und statistischen Informationen vorgenommen werden.

Voraussetzungen für eine logistische Regression

Fallzahl

  • mindestens 50 Fälle für binären Fall, besser jedoch 100 Fälle
  • bei ungleichen Zellverteilungen sollte die kleinste Zellbesetzung 25 betragen
  • benötigte Fallzahl steigt enorm mit zunehmender Anzahl von unabhängigen Variablen

weiterhin

  • Unkorreliertheit der unabhängigen Variablen
  • alle relevanten Regressoren müssen im Modell enthalten sein

Vorteile der logistischen Regression

  • sehr robust
  • weniger statistische Voraussetzungen
    • DA verlangt Intervallskalenniveau und Normalverteilung aller Prädiktoren
    • DA verlangt Homogenität der Varianz Kovarianz Matrizen aller Gruppen

Wie lässt sich die Qualität des Regressionsmodells und die statistische Güte der Schätzung beurteilen?

  • Chi 2 Test (Omnibus Test der Modell Koeffizienten, Likelihood Ratio Test)
    • sollte für Modell signifikant sein
    • gibt die Vorhersageverbesserung im Vergleich zum Modell ohne Prädiktoren (nur Konstante) an
  • Pseudo R 2 Maße
    • McFadden R 2 :
      • relatives Gütemaß, d.h. es gibt Verbesserung des Modells gegenüber dem Ausgangsmodell an
      • Wertebereich zwischen 0 und 1
      • akzeptabel ab Werte größer 0.2; gut ab 0.4 (gibt bereits einen starken Zusammenhang zwischen UV und AV an)
    • Cox and Snell R 2
      • höhere Werte als McFadden R 2
      • akzeptabel ab Werte größer 0.2; gut ab 0.4
      • kann Maximalwert von 1 nicht erreichen
    • Nagelkerke R 2
      • Wertebereich zwischen 0 und 1
      • akzeptabel ab Werte größer 0.2; gut ab 0.4
      • Interpretation wie Determinationskoeffizient in der linearen Regression
  • t Test/Wald Test
    • statistische Signifikanz des Effektkoeffizienten
  • Hosmer und Lemeshow
    • Messung der Übereinstimmung zwischen tatsächlichen und vorhergesagten Werten der
      AV (Gruppen werden nach prognostizierten Wahrscheinlichkeiten gebildet)
    • da geringe Unterschiede ein gutes Modell ausmachen, sollte der CHI 2 Wert nicht
      signifikant sein
  • Klassifikationsmatrix
    • Vergleich der tatsächlichen und vorhergesagten Gruppenzugehörigkeit
    • Prozent korrekt Klassifizierte
  • Entwicklung des Modells an einer Analyse Stichprobe und Vergleich mit Anwendung auf Validierungs Stichprobe