VL22
Kartei Details
Karten | 162 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 10.07.2022 / 27.07.2024 |
Weblink |
https://card2brain.ch/box/20220710_methoden_der_skalierung
|
Einbinden |
<iframe src="https://card2brain.ch/box/20220710_methoden_der_skalierung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wie kann man die Linearität prüfen?
- Box-Tidwell Verfahren
- alle kontinuierlichen Variablen werden logarithmiert
- Interaktionsterme zwischen kontinuierlichen Variablen und ihrem log Pendant erstellen
- Linearität ist gegeben, wenn Interaktion ≠ signifikant
Welche Fallzahlen sind wünschenswert?
- pro Kriteriumsausprägung mind. 25 Beobachtungen
- aussagekräftig ab 100 Beobachtungen pro Gruppe
- höher bei steigender Anzahl der Prädiktoren
- Problem der Regressionen bei zu wenig Fällen
- ggf. fehlerhafte Assoziationen, Genauigkeit und Präzision
Welche Vorteil hat die logistische Regression?
- wenig statistische Voraussetzungen (keine NV der Residuen, keine Varianzhomogenität, keine Anforderungen an Skalenniveau der Prädiktoren)
Wie wird die Wahrscheinlichkeit im logistischen Fall bei dichotomen Kriteriumsvariablen bestimmt?
- p(y=1) + p(x=0) = 1
- y=1: Ja
- x=0: Nein
- Wahrscheinlichkeit, inkl. Merkmal + Wahrscheinlichkeit ohne Merkmal = 100%
- Berechnet wird die Eintrittswahrscheinlichkeit y=1
Wie sieht die grundlegende lineare Regressionsgleichung aus?
yi = ß0 + ß1xi1 + ... ßkxik + ui
- ß0 = Ausgangspunkt (Schnittpunkt y-Achse)
- ß1-x = Regressionsgewichte (Steigungen)
- u (oder e) = Residuen
- Annahme: lineare Beziehung zwischen Kriterium und den Prädiktoren (x), wobei Gewichte (ß) angeben, wie viel Prädiktoren beitragen
Vergleiche das Ergebnis der linearen Regression mit dem der logistischen Regression
- beide: Vorhersage der KV basierend auf der PV
- lineare: Ergebnis = empirischer Beobachtungswert
- logistisch: Ergebnis = Eintrittswahrscheinlichkeit des Beobachtungswertes
Wie wird die Eintrittswahrscheinlichkeit ermittelt?
- Annahme einer latenten (nicht empirisch beobachtbaren) Variablen "z" = Logit
- z erzegt Ausprägungen der KV in Abhängigkeit der PVs
- Erstellen der Wahrscheinlichkeitsfunktion (logistische Funktion p)
- einsetzen von z in eine logstische Funktion
- Funktion gibt Wahrscheinlichkeitsaussage für y=1
Was ist der Logit?
z = ß0 + ß1x1 + ... ßkxk + ui
- ß = Regressionskoeffizienten, x = Variablen, a = Ausgangspunkt
- logarithmierung des Chancenverhältnis: y=1: (p(y=1)/p(y=0)
- Zusammenhang z und Eintrittswahrscheinlichkeit = logarithmisch
- Eigenschaften:
- yi = 1, wenn zi > 0
- y0 = 0, wenn zi ≤ 0
- werden noch Interaktionen mitbetrachtet:
- zusätzlich den Term ß3x1x2 anhängen, um Wechselwirkungen zu beachten
Wie sieht die logistische Funktion p (F(z)) aus?
p = 1/(1+e-z)
- e = eulersche Zahl (2,718)
- Einsetzen von z in die Funktion, um Wahrscheinlichkeitsverteilung zu erhalten
- Ergebnis: logistische Regressionsgleichung für Eintrittswahrscheinlichkeit (y = 1)
- Wertebereich von y: 0-1
- Funktion: s-förmiger Verlauf mit Wendepunkt um p = 0.05
Was ist der klassische Ablauf der logistischen Regression?
- Modellformulierung
- Schätzung der logistischen Regressionsfunktion
- Interpretation des Regressionskoeffizienten
- Prüfung des Gesamtmodells
- LogLikelihood-Funktion
- Klassifikationsergebnisse
- Pseudo-R-Quadrat Statistiken
- Prüfung auf Ausreißer
- Prüfung der Merkmalsvariablen/Prädiktoren
- Likelihood-Quotienten Test
- Wald Statistik
Beschreibe die Modellformulierung
- sachlogische Festlegung der relevanten Prädiktoren/UVs und mögliche Ausprägungen der KVs durch den Anwender
- Annahme eines Zusammenhangs zwischen PV und Eintrittswahrscheinlichkeit für Ergebnis y = 1
Wie wird die logistische Regressionsfunktion geschätzt?
- Schätzung der Regressionsgewichte (ß) durch Maximum-Likelihood-Methode
- Parameter werden so bestimmt, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten, maximiert wird
- durch iterativer Newton-Raphson Algorithmus
- Zuordnung: pi > 0.5: y = 1; pi ≤ 0.5: y = 0
- Logit-Transformation führt zu einer sigmoidalen Kurve, die die Trennung der beiden Gruppen verbessert
Was sind die Zwecke der Regressionsschätzung?
- mit Regressionsschätzung lassen sich mit den erhobenen Daten die z-Werte für die Probanden erreichnen
- mit logistischer Funktion kann die personenbezogenen Wahrscheinlichkeiten für das Ereignis y = 1 bestimmt werden
Wie können die Koeffizienten interpretiert werden?
- Koeffizienteninterpretation nicht einfach
- Gründe:
- Zusammenhang zwischen Prädiktor und Eintrittswahrscheinlihckeit ist indirekt und nicht linear
- Regressionskoeffizienten sind untereinander nicht vergleichbar
- geben nicht das globale Maß der Einflussstärke des Prädiktors an
- stattdessen: Koeffizienten geben nur Richtung des Einflusses an
- Konstante (a): je größer, desto mehr nach links verschoben (Hochpunkt)
- Konstante = y-Achsen Schnittpunkt
- Regressionsgewicht (ß): je größer, desto steiler die Kurve
- 0x: parallel zur x-Achse
- negativ: Steigung verläuft anders herum (fällt)
- Konstante (a): je größer, desto mehr nach links verschoben (Hochpunkt)
Wie kann stattdessen Interpretiert werden?
- nicht die Eintrittswahrscheinlichkeit, sondern das Wahrscheinlichkeitsverhältnis (Chance/Odds) betrachten
- Odds: p(y=1)/(1-p(y=1))
- Logarithmierung der Odds: Angabe, wie hoch die Gewichte sind
Wie kann man das Odds Ratio dann interpretieren?
- Einflussstärke der Prädiktoren über Effekt-Koeffizienten bestimmen
- Odds, nachdem der Prädiktor um eine Einheit gestiegen ist/Odds vorher
- steigt ein Prädiktor i um eine Einheit, verändert sich die Chance von y = 1 um Faktor ebj (=Regressionskoeffizient)
- Odds Ratio kann zwischen 0 bis + unendlich gehen
Interpretationshilfen bei ordinalen/metrischen Prädiktoren
- Odds Ratio:
- = 1: kein Unterschied, ob Prädiktor steigt/nicht steigt
- = 2: Anstieg der PV um eine Einheit führt zu Erhöhung der Odds, dass das Ereignis eintritt auf 2
d.h. ist zweimal so groß (um 100% erhöht) - = 1.05: Anstieg auf 1.05, d.h. um 5%
- = 0.8: Anstieg sinkt auf 0.8, d.h. 80% so groß wie vorher
Interpretationshilfen bei kategorialen Prädiktoren
- z.B. Präferenz für Parteien (= multinominal)
- Bilden einer Referenzkategorie und dann dichotom vergleichen
- Odds Ratio gibt Chancenverhältnis zur Referenzgruppe an
- z.B.: CDU als Referenzgruppe, vgl. mit SPD und Linke
- = 1.12: für SPD Wähler im Vergleich zu CDU Wählern steigen Odds, dass Ereignis eintritt auf 1.12, als um 12% erhöht
- = 0.06: für Linke Wähler im Vergleich zu CDU Wähler sinkt Odds, dass Ereigniss eintritt auf 0.6, d.h. auf 60% des vorherigen Wertes
Welche Gütekriterien gibt es für die Modellgüte?
- LogLikelihood Funktion
- bestehendes Modell vs. Nullmodell
- Klassifikationsergebnisse
- Inwieweit können Prädiktoren das Kriterium korrekt vorhersagen?
- Trefferquote
- Hosmer-Lemeshow-Test (Goodness of Fit)
- Pseudo-R-Quadrat Statistik
- Wie viel Varianz kann durch Regressionsmodell aufgeklärt werden?
- McFaddens R2
- Cox and Snell R2
- Nagelkerke R2
Wie kann die Modellgüte mit der LogLikelihood Funktion getestet werden?
- bestehendes Modell vs. Nullmodell
- Modell, dass Einfluss aller Prädiktoren auf 0 setzt
- H0: alle Regressionskoeffizienten = 0
- Ziel: möglichst große Differenz zum Nullmodell
- Tabelle:
- Omnibus-Tests der Modellkoffizienzen
- signifikant: logistisches Modell = signifikant
Wie kann die Modellgüte mit der den Klassifikationsergebnissen getestet werden?
- Wie gut können Prädiktoren das Kriterium korrekt vorhersagen (bei = 50% nicht besser als Zufall)
- hier betrachten des Baseline-Modells
- Verbesserung der Klassifikation muss im Vgl. zur Basisverteilung betrachtet werden
Wie funktioniert nun die Einschätzung basierend auf der Trefferquote?
- Tabelle: "Klassifizierungstabelle"
- Prozentsatz der richtigen Zuordnungen
- Block 0: Anfangsklassifizierung, d.h. zufällig richtige Klassifikationen
- Trennwert: ab diesem Wert wird y=1 angenommen (darunter: x=1)
- Sensitivität: Person mit dem Merkmal wird korrekt als solche klassifiziert
- Spezifität: Person ohne Merkmal wird korrekt klassifiziert
Wie funktioniert die Einschätzung basierend auf dem Hosmer-Lemeshow-Test?
- Goodness of Fit
- Anpassungsgüte des Modells: signifikantes Ergebnis = schlechte Anpassungsgüte
- H0: Differenz zwischen vorhergesagten und beobachteten Zuordnungen = 0
Wie kann die Modellgüte mithilfe der Pseudo-R-Quadrat Statistik bestimmt werden?
- Wie viel Varianz kann durch das Regressionsmoell aufgeklärt werden?
- Aussage, inwieweit Modell mit den Prädiktoren bessere Vorhersagen trifft als das Nullmodell (Klassifizierungstabelle, Block 0)
- McFaddens-R2
- relatives Gütemaß
- Verbesserung des Modells gegenüber Nullmodell
- Wertebereich: 0-1
- akzeptabel: > 0.2, gut >0.4
- Cox and Snell R2
- Vergleich des Vollständigen mit dem Nullmodell
- Maximalwert von 1 kann nicht erreicht werden
- akzeptabel: > 0.2, gut >0.4
- Nagelkerke-R2
- setzt vollständiges mit Nullmodell in Beziehung
- besser als Cox, (Varianzaufklärung kann 1 erreichen)
- akzeptabel: > 0.2, gut >0.4
Wie kann auf Ausreißer geprüft werden?
- Individuelle Residuen (für Person k) geben Aufschluss
- Abweichungen > .5: verzerrende Einflüsse sind wahrscheinlich
- bessere Erkennung durch Gewichte der Residuen
- z.B. standardisierte Residuen (ZResid)
Wie können die Merkmalsvariablen (Prädiktoren) geprüft werden?
- Bestimmung der Trennfähigkeit einzelner Prädiktoren
- Welche Faktoren tragen signifikant zur Klassifikationsleistung des Modells bei
- Tabelle: Variablen in der Gleichung
- Methoden
- Likelihood Quotienten Test
- Wald Statistik
Wie funktioniert der Likelihood-Quotienten Test?
- Vergleicht vollständiges Modell mit reduzierten Modellen (jeweils ein Regressionskoeffizient wird auf 0 gesetzt)
- Testet H0, dass Regressionskoeffizient bj = 0
- Differenz zwischen dem vollständigen und dem reduzierten Modellen = Testgröße
Wie funktioniert die Wald-Statistik?
- Prüfung der Signifikanz einzelner Koeffizienzen
- Testet H0, dass Regressionskoeffizienten bj = 0
- Testgröße (W): setzt Regressionskoeffizienzen zu dessen Standardfehler in Beziehung
- nur interpretieren, wenn signifikant
Was ist das Problem bei typischen Fragestellungen und welche Lösung gibt es dafür?
- statistische Verfahren setzen Unabhängigkeit der Daten und Residuen voraus
- oft verletzt
- kontextuelle Variablen erhöhen die Dependenz zwischen Residuen
- Nutzung von MEM
- wenn mehrere Ebenen angenommen werden können
- wenn es Abhängigkeiten auf höherer Ebene gibt
Wie ist die Lineare Regressionsgleichung aufzuteilen?
yi = b0+b1x1i+ri
- bo = Intercept, Regressionskonstante (vorhergesagter Wert von y, wenn PV = 0)
- b1x1i = Slope, Regressionskoeffizient (Veränderung in y, wenn PV x1 um eine Einheit erhöht wird)
- ri = Residual (individuelle Abweichung beobachteter Wert vom vorhergesagten Wert)
- Variationen sind in intercept, slope und im Zusammenhang zu finden
- Fehlinterpretationen, wenn nur auf individueller Ebene interpretiert wird, obwohl es Abhängigkeiten auf höherer Ebene gibt
Was sind bspw. Level 1 und Level 2 Daten?
- Level 1:
- Mitarbeitende
- Schülerinnen
- Lehrkräfte
- Familien
- Patienten
- Messzeitpunkte
- experimentelle Bedingungen
- Level 2
- Firma
- Klassen
- Schule
- Nachbarschaften
- Ärzte
- Probanden
Was sind Mehrebenenenmodelle?
- Art von linearen Regressionen
- werden bei hierarchischen (geschachtelten/genesteten) Daten eingesetzt
- Ziel: Abhängigkeit von Residuen berücksichtigen
Wann sind MEM sinnvoll?
- Intraclass Correlation Coeffizient (ICC)
- Systemische Level 2 Unterschiede
Wie ähnlich sind sich zwei Werte aus der gleichen Level-2 Einheit? - Berechnung, indem Varianz auf Level 2 ins Verhältnis zur Gesamtvarianz gesetzt wird
- >.1 = mittlere Intraclass Correlation
>.2 = hohe Intraclass Correlation
- Systemische Level 2 Unterschiede
Was sind Voraussetzungen der MEM?
- intervallskalierte KV/AV
- Linearität von Zusammenhängen
- NV der Residuen
- Unabhängigkeit (wichtige Einflussfaktoren mit aufnehmen)
- Outlier anschauen und ggf. eliminieren
- keine Multikollinearität (sonst zentrieren)
- Stichprobengröße (mind. 20 Ausprägungen der Level 2 Variablen bei Interaktionen zwischen Levels)
Was sind Vorteile der MEM?
- weniger Anforderungen
- Abhängigkeit durch höhere Level kann modelliert werden
- Sphärizität kann modelliert werden
- Missing Data kein Problem
- Drop-Out, ungleiche Zellbesetzung
- Parameter in MEM auf Basis verfügbarer Daten geschätzt
- sehr flexibel und mächtig
- PV egal welches Skalenniveau
- Interaktionen egal welches Skalenniveau
Was sind fixed und was sind random Effekte?
- Fixed: alle relevanten Bedingungen sind im Experiment
- Generalisierung geht nicht über getestete Bedingungen hinaus
- Random: Bedingungen des Experiments nur Auswahl
- Generalisierung
Was sind fixed und was sind random Koeffizienten?
- Fixed Coefficients: intercept und slope für alle VP gleich (= Level 1 Daten)
- Random: Koeffizienten variieren je nach Level 2 Kontext
- random intercept: Ausgangspunkte unterscheiden sich je nach Level 2 Gruppe (PV = 0)
- random slope: Stärke des Zusammenhangs PV mit KV ist je nach Level 2 Gruppe unterschiedlich
Beschreibe die Random Intercepts
- Intercept = Ausgangspunkte zwischen Gruppen (Level 2)
- bsp.: Einfluss auf alle Gruppen gleich, aber grundsätzliche Ausprägung ist verschieden
Beschreibe die Random Slopes
- Slopes = Stärke des Zusammenhangs zwischen PV und KV unterscheidet sich zwischen Gruppen
- gleicher grundsätzlicher Ausgangspunkt, aber Einfluss ist unterschiedlich
Beschreibe die Kombi: Random Intercepts und Slopes
- Intercepts und Slopes unterscheiden sich zwischen Gruppen
- MEM schätzen die Regressionsparameter und deren Variabilität