VL22


Kartei Details

Karten 162
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 10.07.2022 / 27.07.2024
Weblink
https://card2brain.ch/box/20220710_methoden_der_skalierung
Einbinden
<iframe src="https://card2brain.ch/box/20220710_methoden_der_skalierung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie kann man die Linearität prüfen?

  • Box-Tidwell Verfahren
    • alle kontinuierlichen Variablen werden logarithmiert
    • Interaktionsterme zwischen kontinuierlichen Variablen und ihrem log Pendant erstellen
    • Linearität ist gegeben, wenn Interaktion ≠ signifikant

Welche Fallzahlen sind wünschenswert?

  • pro Kriteriumsausprägung mind. 25 Beobachtungen
  • aussagekräftig ab 100 Beobachtungen pro Gruppe
    • höher bei steigender Anzahl der Prädiktoren
  • Problem der Regressionen bei zu wenig Fällen 
    • ggf. fehlerhafte Assoziationen, Genauigkeit und Präzision

Welche Vorteil hat die logistische Regression?

  • wenig statistische Voraussetzungen (keine NV der Residuen, keine Varianzhomogenität, keine Anforderungen an Skalenniveau der Prädiktoren)

Wie wird die Wahrscheinlichkeit im logistischen Fall bei dichotomen Kriteriumsvariablen bestimmt?

  • p(y=1) + p(x=0) = 1
    • y=1: Ja
    • x=0: Nein
    • Wahrscheinlichkeit, inkl. Merkmal + Wahrscheinlichkeit ohne Merkmal = 100%
  • Berechnet wird die Eintrittswahrscheinlichkeit y=1

Wie sieht die grundlegende lineare Regressionsgleichung aus?

yi = ß0 + ß1xi1 + ... ßkxik + ui

  • ß0  = Ausgangspunkt (Schnittpunkt y-Achse)
  • ß1-x = Regressionsgewichte (Steigungen)
  • u (oder e) = Residuen
  • Annahme: lineare Beziehung zwischen Kriterium und den Prädiktoren (x), wobei Gewichte (ß) angeben, wie viel Prädiktoren beitragen   

Vergleiche das Ergebnis der linearen Regression mit dem der logistischen Regression

  • beide: Vorhersage der KV basierend auf der PV
  • lineare: Ergebnis = empirischer Beobachtungswert
  • logistisch: Ergebnis = Eintrittswahrscheinlichkeit des Beobachtungswertes

Wie wird die Eintrittswahrscheinlichkeit ermittelt?

  1. Annahme einer latenten (nicht empirisch beobachtbaren) Variablen "z" = Logit
    • z erzegt Ausprägungen der KV in Abhängigkeit der PVs
  2. Erstellen der Wahrscheinlichkeitsfunktion (logistische Funktion p)
    • einsetzen von z in eine logstische Funktion 
    • Funktion gibt Wahrscheinlichkeitsaussage für y=1

Was ist der Logit?

z = ß0 + ß1x1 + ... ßkxk + ui

  • ß = Regressionskoeffizienten, x = Variablen, a = Ausgangspunkt
  • logarithmierung des Chancenverhältnis: y=1: (p(y=1)/p(y=0)
  • Zusammenhang z und Eintrittswahrscheinlichkeit = logarithmisch
  • Eigenschaften:
    • y= 1, wenn zi > 0
    • y= 0, wenn zi ≤ 0
  • werden noch Interaktionen mitbetrachtet: 
    • zusätzlich den Term ß3x1x2 anhängen, um Wechselwirkungen zu beachten

 

Wie sieht die logistische Funktion p (F(z)) aus?

p = 1/(1+e-z

  • e = eulersche Zahl (2,718)
  • Einsetzen von z in die Funktion, um Wahrscheinlichkeitsverteilung zu erhalten
  • Ergebnis: logistische Regressionsgleichung für Eintrittswahrscheinlichkeit (y = 1)
  • Wertebereich von y: 0-1
  • Funktion: s-förmiger Verlauf mit Wendepunkt um p = 0.05

Was ist der klassische Ablauf der logistischen Regression?

  1. Modellformulierung
  2. Schätzung der logistischen Regressionsfunktion
  3. Interpretation des Regressionskoeffizienten
  4. Prüfung des Gesamtmodells
    1. LogLikelihood-Funktion
    2. Klassifikationsergebnisse
    3. Pseudo-R-Quadrat Statistiken
  5. Prüfung auf Ausreißer
  6. Prüfung der Merkmalsvariablen/Prädiktoren
    1. Likelihood-Quotienten Test
    2. Wald Statistik

Beschreibe die Modellformulierung

  • sachlogische Festlegung der relevanten Prädiktoren/UVs und mögliche Ausprägungen der KVs durch den Anwender
  • Annahme eines Zusammenhangs zwischen PV und Eintrittswahrscheinlichkeit für Ergebnis y = 1

Wie wird die logistische Regressionsfunktion geschätzt?

  • Schätzung der Regressionsgewichte (ß) durch Maximum-Likelihood-Methode
    • Parameter werden so bestimmt, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten, maximiert wird
    • durch iterativer Newton-Raphson Algorithmus
  • Zuordnung: p> 0.5: y = 1; pi ≤ 0.5: y = 0
  • Logit-Transformation führt zu einer sigmoidalen Kurve, die die Trennung der beiden Gruppen verbessert 

Was sind die Zwecke der Regressionsschätzung?

  • mit Regressionsschätzung lassen sich mit den erhobenen Daten die z-Werte für die Probanden erreichnen
  • mit logistischer Funktion kann die personenbezogenen Wahrscheinlichkeiten für das Ereignis y = 1 bestimmt werden

Wie können die Koeffizienten interpretiert werden?

  • Koeffizienteninterpretation nicht einfach
  • Gründe:
    • Zusammenhang zwischen Prädiktor und Eintrittswahrscheinlihckeit ist indirekt und nicht linear
    • Regressionskoeffizienten sind untereinander nicht vergleichbar
    • geben nicht das globale Maß der Einflussstärke des Prädiktors an
  • stattdessen: Koeffizienten geben nur Richtung des Einflusses an
    • Konstante (a): je größer, desto mehr nach links verschoben (Hochpunkt)
      • Konstante = y-Achsen Schnittpunkt
    • Regressionsgewicht (ß): je größer, desto steiler die Kurve
      • 0x: parallel zur x-Achse
      • negativ: Steigung verläuft anders herum (fällt)

Wie kann stattdessen Interpretiert werden?

  • nicht die Eintrittswahrscheinlichkeit, sondern das Wahrscheinlichkeitsverhältnis (Chance/Odds) betrachten
    • Odds: p(y=1)/(1-p(y=1))
  • Logarithmierung der Odds: Angabe, wie hoch die Gewichte sind 

Wie kann man das Odds Ratio dann interpretieren?

  • Einflussstärke der Prädiktoren über Effekt-Koeffizienten bestimmen
    • Odds, nachdem der Prädiktor um eine Einheit gestiegen ist/Odds vorher
    • steigt ein Prädiktor i um eine Einheit, verändert sich die Chance von y = 1 um Faktor ebj (=Regressionskoeffizient)
    • Odds Ratio kann zwischen 0 bis + unendlich gehen

    Interpretationshilfen bei ordinalen/metrischen Prädiktoren

    • Odds Ratio:
      • = 1: kein Unterschied, ob Prädiktor steigt/nicht steigt
      • = 2: Anstieg der PV um eine Einheit führt zu Erhöhung der Odds, dass das Ereignis eintritt auf 2
        d.h. ist zweimal so groß (um 100% erhöht)
      • = 1.05: Anstieg auf 1.05, d.h. um 5%
      • = 0.8: Anstieg sinkt auf 0.8, d.h. 80% so groß wie vorher

    Interpretationshilfen bei kategorialen Prädiktoren

    • z.B. Präferenz für Parteien (= multinominal)
      • Bilden einer Referenzkategorie und dann dichotom vergleichen
    • Odds Ratio gibt Chancenverhältnis zur Referenzgruppe an
    • z.B.: CDU als Referenzgruppe, vgl. mit SPD und Linke
      • = 1.12: für SPD Wähler im Vergleich zu CDU Wählern steigen Odds, dass Ereignis eintritt auf 1.12, als um 12% erhöht
      • = 0.06: für Linke Wähler im Vergleich zu CDU Wähler sinkt Odds, dass Ereigniss eintritt auf 0.6, d.h. auf 60% des vorherigen Wertes

    Welche Gütekriterien gibt es für die Modellgüte?

    1. LogLikelihood Funktion
      • bestehendes Modell vs. Nullmodell
    2. Klassifikationsergebnisse
      • Inwieweit können Prädiktoren das Kriterium korrekt vorhersagen?
      • Trefferquote
      • Hosmer-Lemeshow-Test (Goodness of Fit)
    3. Pseudo-R-Quadrat Statistik
      • Wie viel Varianz kann durch Regressionsmodell aufgeklärt werden?
      • McFaddens R2
      • Cox and Snell R2
      • Nagelkerke R2

    Wie kann die Modellgüte mit der LogLikelihood Funktion getestet werden?

    • bestehendes Modell vs. Nullmodell
      • Modell, dass Einfluss aller Prädiktoren auf 0 setzt
    • H0: alle Regressionskoeffizienten = 0
    • Ziel: möglichst große Differenz zum Nullmodell
    • Tabelle:
      • Omnibus-Tests der Modellkoffizienzen
      • signifikant: logistisches Modell = signifikant

    Wie kann die Modellgüte mit der den Klassifikationsergebnissen getestet werden?

    • Wie gut können Prädiktoren das Kriterium korrekt vorhersagen (bei = 50% nicht besser als Zufall)
      • hier betrachten des Baseline-Modells
      • Verbesserung der Klassifikation muss im Vgl. zur Basisverteilung betrachtet werden

    Wie funktioniert nun die Einschätzung basierend auf der Trefferquote?

    • Tabelle: "Klassifizierungstabelle"
    • Prozentsatz der richtigen Zuordnungen 
    • Block 0: Anfangsklassifizierung, d.h. zufällig richtige Klassifikationen
    • Trennwert: ab diesem Wert wird y=1 angenommen (darunter: x=1)
    • Sensitivität: Person mit dem Merkmal wird korrekt als solche klassifiziert
    • Spezifität: Person ohne Merkmal wird korrekt klassifiziert

    Wie funktioniert die Einschätzung basierend auf dem Hosmer-Lemeshow-Test?

    • Goodness of Fit
    • Anpassungsgüte des Modells: signifikantes Ergebnis = schlechte Anpassungsgüte
    • H0: Differenz zwischen vorhergesagten und beobachteten Zuordnungen = 0

    Wie kann die Modellgüte mithilfe der Pseudo-R-Quadrat Statistik bestimmt werden?

    • Wie viel Varianz kann durch das Regressionsmoell aufgeklärt werden?
      • Aussage, inwieweit Modell mit den Prädiktoren bessere Vorhersagen trifft als das Nullmodell (Klassifizierungstabelle, Block 0)
    • McFaddens-R2
      • relatives Gütemaß
      • Verbesserung des Modells gegenüber Nullmodell
      • Wertebereich: 0-1
      • akzeptabel: > 0.2, gut >0.4
    • Cox and Snell R2
      • Vergleich des Vollständigen mit dem Nullmodell
      • Maximalwert von 1 kann nicht erreicht werden
      • akzeptabel: > 0.2, gut >0.4
    • Nagelkerke-R2
      • setzt vollständiges mit Nullmodell in Beziehung
      • besser als Cox, (Varianzaufklärung kann 1 erreichen)
      • akzeptabel: > 0.2, gut >0.4

    Wie kann auf Ausreißer geprüft werden?

    • Individuelle Residuen (für Person k) geben Aufschluss
    • Abweichungen > .5: verzerrende Einflüsse sind wahrscheinlich
    • bessere Erkennung durch Gewichte der Residuen
      • z.B. standardisierte Residuen (ZResid)

    Wie können die Merkmalsvariablen (Prädiktoren) geprüft werden?

    • Bestimmung der Trennfähigkeit einzelner Prädiktoren
    • Welche Faktoren tragen signifikant zur Klassifikationsleistung des Modells bei 
      • Tabelle: Variablen in der Gleichung
    • Methoden
      1. Likelihood Quotienten Test
      2. Wald Statistik

    Wie funktioniert der Likelihood-Quotienten Test?

    • Vergleicht vollständiges Modell mit reduzierten Modellen (jeweils ein Regressionskoeffizient wird auf 0 gesetzt)
    • Testet H0, dass Regressionskoeffizient bj = 0
    • Differenz zwischen dem vollständigen und dem reduzierten Modellen = Testgröße

    Wie funktioniert die Wald-Statistik?

    • Prüfung der Signifikanz einzelner Koeffizienzen
    • Testet H0, dass Regressionskoeffizienten bj = 0
    • Testgröße (W): setzt Regressionskoeffizienzen zu dessen Standardfehler in Beziehung
    • nur interpretieren, wenn signifikant

      Was ist das Problem bei typischen Fragestellungen und welche Lösung gibt es dafür?

      • statistische Verfahren setzen Unabhängigkeit der Daten und Residuen voraus
        • oft verletzt 
        • kontextuelle Variablen erhöhen die Dependenz zwischen Residuen
      • Nutzung von MEM
        • wenn mehrere Ebenen angenommen werden können
        • wenn es Abhängigkeiten auf höherer Ebene gibt

      Wie ist die Lineare Regressionsgleichung aufzuteilen?

      yi = b0+b1x1i+ri

      • bo = Intercept, Regressionskonstante (vorhergesagter Wert von y, wenn PV = 0)
      • b1x1i = Slope, Regressionskoeffizient (Veränderung in y, wenn PV x1 um eine Einheit erhöht wird)
      • ri = Residual (individuelle Abweichung beobachteter Wert vom vorhergesagten Wert)
      • Variationen sind in intercept, slope und im Zusammenhang zu finden
        • Fehlinterpretationen, wenn nur auf individueller Ebene interpretiert wird, obwohl es Abhängigkeiten auf höherer Ebene gibt

      Was sind bspw. Level 1 und Level 2 Daten?

      • Level 1:
        • Mitarbeitende
        • Schülerinnen
        • Lehrkräfte
        • Familien
        • Patienten
        • Messzeitpunkte
        • experimentelle Bedingungen
      • Level 2
        • Firma
        • Klassen
        • Schule
        • Nachbarschaften
        • Ärzte
        • Probanden

      Was sind Mehrebenenenmodelle?

      • Art von linearen Regressionen
      • werden bei hierarchischen (geschachtelten/genesteten) Daten eingesetzt
      • Ziel: Abhängigkeit von Residuen berücksichtigen

      Wann sind MEM sinnvoll?

      • Intraclass Correlation Coeffizient (ICC)
        • Systemische Level 2 Unterschiede
          Wie ähnlich sind sich zwei Werte aus der gleichen Level-2 Einheit?
        • Berechnung, indem Varianz auf Level 2 ins Verhältnis zur Gesamtvarianz gesetzt wird
        • >.1 = mittlere Intraclass Correlation
          >.2 = hohe Intraclass Correlation

      Was sind Voraussetzungen der MEM?

      1. intervallskalierte KV/AV
      2. Linearität von Zusammenhängen
      3. NV der Residuen
      4. Unabhängigkeit  (wichtige Einflussfaktoren mit aufnehmen)
      5. Outlier anschauen und ggf. eliminieren
      6. keine Multikollinearität (sonst zentrieren)
      7. Stichprobengröße (mind. 20 Ausprägungen der Level 2 Variablen bei Interaktionen zwischen Levels)

      Was sind Vorteile der MEM?

      1. weniger Anforderungen
        1. Abhängigkeit durch höhere Level kann modelliert werden
        2. Sphärizität kann modelliert werden
      2. Missing Data kein Problem
        1. Drop-Out, ungleiche Zellbesetzung
        2. Parameter in MEM auf Basis verfügbarer Daten geschätzt 
      3. sehr flexibel und mächtig
        1. PV egal welches Skalenniveau
        2. Interaktionen egal welches Skalenniveau

      Was sind fixed und was sind random Effekte?

      • Fixed: alle relevanten Bedingungen sind im Experiment
        • Generalisierung geht nicht über getestete Bedingungen hinaus
      • Random: Bedingungen des Experiments nur Auswahl
        • Generalisierung

      Was sind fixed und was sind random Koeffizienten?

      • Fixed Coefficients: intercept und slope für alle VP gleich (= Level 1 Daten)
      • Random: Koeffizienten variieren je nach Level 2 Kontext
        • random intercept: Ausgangspunkte unterscheiden sich je nach Level 2 Gruppe (PV = 0)
        • random slope: Stärke des Zusammenhangs PV mit KV ist je nach Level 2 Gruppe unterschiedlich

      Beschreibe die Random Intercepts

      • Intercept = Ausgangspunkte zwischen Gruppen (Level 2)
        • bsp.: Einfluss auf alle Gruppen gleich, aber grundsätzliche Ausprägung ist verschieden

      Beschreibe die Random Slopes

      • Slopes = Stärke des Zusammenhangs zwischen PV und KV unterscheidet sich zwischen Gruppen
        • gleicher grundsätzlicher Ausgangspunkt, aber Einfluss ist unterschiedlich

      Beschreibe die Kombi: Random Intercepts und Slopes

      • Intercepts und Slopes unterscheiden sich zwischen Gruppen
      • MEM schätzen die Regressionsparameter und deren Variabilität