Logistische Regression
Karten zum Thema "Logistische Regression" aus dem Kurs "Methoden der Skalierung"
Karten zum Thema "Logistische Regression" aus dem Kurs "Methoden der Skalierung"
Fichier Détails
Cartes-fiches | 18 |
---|---|
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 09.07.2020 / 08.07.2023 |
Lien de web |
https://card2brain.ch/box/20200709_logistische_regression
|
Intégrer |
<iframe src="https://card2brain.ch/box/20200709_logistische_regression/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Créer ou copier des fichiers d'apprentissage
Avec un upgrade tu peux créer ou copier des fichiers d'apprentissage sans limite et utiliser de nombreuses fonctions supplémentaires.
Connecte-toi pour voir toutes les cartes.
Die logistische Regression ist ein ...
...struktur-prüfendes Verfahren
Welche Skalenniveaus können die Variablen bei der logistischen Regression annehmen?
- unabhängige Variable: metrisch
- abhängige Variable: nominal
Was ist das Ziel der logistischen Regression?
Statistische Beurteilung des Zusammenhangs zwischen einer nominalskalierten, dichotomen abhängigen Variablen und mindestens einer unabhängigen Variablen:
- Wovon hängt das Eintreten eines Ereignisses/Zustands bei einem Untersuchungsobjekt ab bzw. wodurch wird das Eintreten beeinflusst?
- Gewichtungsfunktion, die angibt, welche Prädiktoren/Regressoren die AV wie stark in welche Richtung beeinflussen
- Wie hoch ist die Wahrscheinlichkeit für das Eintreten des Ereignisses/Zustands bei einem bestimmten Untersuchungsobjekt, wenn man dessen Ausprägungen der unabhängigen Variablen kennt?
- Beispiele:
- Abhängigkeit von Fehlgeburten von den Lebensumständen der Mutter (Alter, Alkoholkonsum, Zigarettenkonsum...)
- Therapieerfolg in Abhängigkeit von der Dauer der Erkrankung, Dauer der Therapie, des Therapieansatzes
- Kaufentscheidung für ein Produkt
Wie entsteht die logistische Regression aus der linearen Regression?
Problem
- für lineare Regression muss AV metrisch skaliert sein
- Wertebereich der Vorhersage bei der lin. Reg. von -unendlich bis +unendlich und nicht beschränkt auf 0 ≤ p ≥ 1 (unplausible Prognosewerte)
- Modellspezifikation fragwürdig
- keine Varianzhomogenität der Residuen
- Residuen nicht normalverteilt
Ziel: Entwicklung einer Gleichung, die auf der rechten Seite ß0+ß1x1i + … +ßkxki enthält und auf der linken Seite einen Ausdruck, der ebenfalls von -unendlich bis +unendlich variiert und der es ermöglicht, eine dichotome Variable einzubinden
Was passiert bei der logistischen Regression, wenn xk um eine Einheit zunimmt?
Wenn xk (unabhängige Variable) um eine Einheit zunimmt, dann steigt Logit p(y=1) um ßk.
In welchen Fällen kann ß0 interpretiert werden?
ß0 kann nur bei Kohortenstudien interpretiert werden, bei Fall-Kontroll-Studien und Querschnittsstudien müsse Verhältnis Fälle-Kontrollen berücksichtigt werden!
Wie kommt man auf das background log odd (ß0)?
Das bachground log odd ergibt sich, wenn alle xi = 0. Also wenn keine Exposition erfolgt ist.
Was bedeutet ßi?
Die ßi repräsentieren die Veränderungen in Log Odds, die eintreten würden, wenn in einer Variablen ein Änderung um eine Einheit vorgenommen wird, während die Ausprägung der anderen Variablen fixiert werden!!!
Welche graphischen Veränderungen bewirken bei der logistischen Funktion verschiedene Veränderungen der Parameter?
ß0 = -x --> bewirkt Verschiebung der Funktion um x nach rechts
ß1 = 5 --> Stauchung der Funktion
ß1 = 1/5 --> Abflachen der Funktion
Was ist das Grundprinzip der logistischen Regression?
- Die Logistische Regression modelliert den Wahrscheinlichkeitsübergang einer kategorial (hier binär) ausgeprägten Variablen in Abhängigkeit von der Ausprägung der unabhängigen Variablen (unter Annahme der logistischen Verteilung der Residuen)
- Ergebnis ist zunächst die Schätzung der Gewichtungsfaktoren ß0, ß1, ß2, ...
Wie lautet die Formel des Effekt-Koeffizienten und wie kann er interpretiert werden?
Interpretation
- Die Erhöhung der UV i um eine Einheit bewirkt eine Veränderung der Chance um eßi
- Wertebereich von 0 bis +unendlich
- Werte <1: Erhöhung der UV vermindert die Eintrittswahrscheinlichkeit für y=1 gegenüber y=0
- Werte >1: Erhöhung der UV vergrößert die Eintrittswahrscheinlichkeit für y=1 gegenüber y=0
- Werte =1: OR bleibt konstant
- Interpretation des Zahlenwertes nur als Veränderung der Chance!!!
Wie findet man heraus welche UVs Einfluss auf die AV nehmen?
Prädiktorblöcke
- Sukzessive Modellerweiterung um Blöcke von Regressoren, wobei mit einem F-Test beurteilt werden kann, ob der zuletzt einbezogene Block eine signifikante Verbesserung der Vorhersage bewirkt hat
Automatische Modellsuche
- Innerhalb eines Blocks, der auch alle Regressoren umfassen darf, kann man SPSS nach einem guten Modell suchen lassen. Es wird schrittweise anhand von Signifikanztests entschieden, ob Regressoren aufgenommen werden oder nicht
- Strategien
- vorwärts: Ausgehend vom Modell ohne Regressoren wird Schritt für Schritt entschieden, ob ein (weiterer) Regressor aufgenommen werden sollte
- rückwärts: Zunächst werden alle Regressoren aufgenommen, dann wird Schritt für Schritt geprüft, ob ein Regressor entfernt werden sollte.
aber: In der Regel sollte die Modellsuche vom Untersucher nach inhaltlichen und statistischen Informationen vorgenommen werden.
Voraussetzungen für eine logistische Regression
Fallzahl
- mindestens 50 Fälle für binären Fall, besser jedoch 100 Fälle
- bei ungleichen Zellverteilungen sollte die kleinste Zellbesetzung 25 betragen
- benötigte Fallzahl steigt enorm mit zunehmender Anzahl von unabhängigen Variablen
weiterhin
- Unkorreliertheit der unabhängigen Variablen
- alle relevanten Regressoren müssen im Modell enthalten sein
Vorteile der logistischen Regression
- sehr robust
- weniger statistische Voraussetzungen
- DA verlangt Intervallskalenniveau und Normalverteilung aller Prädiktoren
- DA verlangt Homogenität der Varianz Kovarianz Matrizen aller Gruppen
Wie lässt sich die Qualität des Regressionsmodells und die statistische Güte der Schätzung beurteilen?
- Chi 2 Test (Omnibus Test der Modell Koeffizienten, Likelihood Ratio Test)
- sollte für Modell signifikant sein
- gibt die Vorhersageverbesserung im Vergleich zum Modell ohne Prädiktoren (nur Konstante) an
- Pseudo R 2 Maße
- McFadden R 2 :
- relatives Gütemaß, d.h. es gibt Verbesserung des Modells gegenüber dem Ausgangsmodell an
- Wertebereich zwischen 0 und 1
- akzeptabel ab Werte größer 0.2; gut ab 0.4 (gibt bereits einen starken Zusammenhang zwischen UV und AV an)
- Cox and Snell R 2
- höhere Werte als McFadden R 2
- akzeptabel ab Werte größer 0.2; gut ab 0.4
- kann Maximalwert von 1 nicht erreichen
- Nagelkerke R 2
- Wertebereich zwischen 0 und 1
- akzeptabel ab Werte größer 0.2; gut ab 0.4
- Interpretation wie Determinationskoeffizient in der linearen Regression
- McFadden R 2 :
- t Test/Wald Test
- statistische Signifikanz des Effektkoeffizienten
- Hosmer und Lemeshow
- Messung der Übereinstimmung zwischen tatsächlichen und vorhergesagten Werten der
AV (Gruppen werden nach prognostizierten Wahrscheinlichkeiten gebildet) - da geringe Unterschiede ein gutes Modell ausmachen, sollte der CHI 2 Wert nicht
signifikant sein
- Messung der Übereinstimmung zwischen tatsächlichen und vorhergesagten Werten der
- Klassifikationsmatrix
- Vergleich der tatsächlichen und vorhergesagten Gruppenzugehörigkeit
- Prozent korrekt Klassifizierte
- Entwicklung des Modells an einer Analyse Stichprobe und Vergleich mit Anwendung auf Validierungs Stichprobe
-
- 1 / 18
-