Multivariate Statistik und Datenanalyse: HLM
PHB WS 18/19
PHB WS 18/19
Kartei Details
Karten | 56 |
---|---|
Lernende | 12 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 19.01.2019 / 06.07.2021 |
Weblink |
https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_hlm
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190119_multivariate_statistik_und_datenanalyse_hlm/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Wie kann im CLI Multikollinearität verhindert werden?
Zentrierung
Schwarz: Die personenspezifischen Geraden (für jede einzelne Person)
Blau: Die Schätzung für eine Person mit durchschnittlichem Neurotizismus (mitte), sowie für Personen mit über-/ unterdurchschnittlichem Neurotizismus
Die geschätzten Geraden variieren nur in ihrem Intercept, nicht in ihrer Steigung, da die L2UV in diesem Modell nur Unterschiede in den Intercepts erklärt
Hinweis L2UV:
Hohe Werte = Neurotizismus hoch | Niedrige Werte = Neurotizismus niedri
Welche Parameter kommen beim Random Slope Model im Vergleich zum Random Intercept Model hinzu?
- Steigung
- geschätzte Varianz der level 2 Regressionsgewichte (random effect)
- geschätzte Korrelation zwischen gruppenspezifischen Achsenabschnitt und dem gruppenspezifischen Regressionsgewicht
Wie ist die Korrelation im Random Slope Model zu interpretieren?
Geschätzte Korrelation zwischen gruppenspezifischen Achsenabschnitt und dem gruppenspezifischen Regressionsgewicht.
Je größer der gruppenspezifische Intercept, desto negativer (weniger positiv)// positiver (weniger negativ) ist die gruppenspezifische Steigung.
1. Was ist der innergruppen Effekt was der zwischengruppen Effekt?
2. Wann liegt ein Kontexteffekt vor?
1.)
Inner: UVs haben auf Eben 1 einen Effekt auf die AV
z.B. Die Schulunlust eines Schülers hängt davon ab wie leistungsstark er selber im Vergleich zu seiner eigenen Klasse ist.
Zwischen: UVs können auf Ebene 2 einen Effekt auf die AV haben.
z.B. Die Schulunlust eines Schülers in einer bestimmten Klasse hängt davon ab wie leistungsstark die Klasse im Vergleich zu den anderen Klassen ist.
2.) Kontexteffekt: Wenn der Innergruppeneffekt hinsichtlich seiner Richtung oder Stärke vom Zwischengruppeneffekt abweicht.
Warum brauchen wir HLM?
Bei einigen Formen der Stichprobenziehung kann es vorkommen, dass einzelne Messwerte nicht unabhängig voneinander sind.
- Ähnlichere Werte auf der AV
- unterschiedliche Zusammenhänge zw. UV und AV innerhalb abgrenzbarer Gruppen
→ Kategoriale Variable „wirkt“ im Hintergrund
Beispiel: Schüler innerhalb einer Klasse ähnlicher als zwischen den Klassen!
Welche Risiken ergeben sich bei hierarchischen Datenstrukturen?
- Risiko falscher Schlüsse bei der Interpretation von Zusammenhangs- und Beeinflussungsstrukturen
- Risiko falscher Schlüsse bei der inferenzstatistischen Absicherung von Regressionsgewichten
Was meint der Ökologische Fehlschluss?
Einen ökologischen Fehlschluss („ecological fallacy“) begeht man, wenn man einen Zusammenhang oder Effekt, der auf der Ebene von Level-2-Einheiten gefunden wurde, fälschlicherweise auf der Ebene von Level-1-Einheiten interpretiert.
Beispiel: Wenn man also fälschlicherweise vom negativen Zusammenhang zwischen Arbeitsbündnis und Symptomausprägung auf der Ebene von Therapeuten auf einen negativen Zusammenhang auf der Ebene von Patienten schließen würde.
Was ist die Intraklassen-Korrelation und wozu dient sie?
Anhand der Intraklassen-Korrelation („intraclass correlation“, ICC) kann der Anteil der Varianz zwischen Level-2-Einheiten an der Gesamtvarianz einer Variable bestimmt werden.
Die ICC variiert zwischen 0 und 1 und drückt aus, wie ähnlich sich zwei Werte sind, die aus der gleichen Level-2-Einheit stammen
Welche Strategien gibt es, um mit der Verletzung der Unabhängigkeitsannahme umzugehen?
1. Man kann die Variable, die für systematische Unterschiede in der AV zwischen den Level-2-Einheiten sorgt (z.B. therapeutische Kompetenz), mit in die Regressionsgleichung aufnehmen
Aber: Meistens gibt es nicht nur eine Ursache bzw. die relevanten Variablen sind nicht einfach messbar
2. Man kann die Zugehörigkeit zu einer Level-2-Einheit mittels Codiervariablen in der Regressionsgleichung berücksichtigen
Aber: Bei n Level-2-Einheiten werden n-1 Codiervariablen benötigt
3. Idealerweise werden hierarchische lineare Modelle bzw.„Mehrebenenmodelle“ verwendet
1. Welche Voraussetzungen bestehen für Mehrebenenmodelle?
2. Wie wird mit Verletzung dieser umgegangen?
1. Voraussetzungen:
Die Residuen auf Ebene 1 sind unabhängig und identisch normalverteilt (mit einem Erwartungswert von 0 und einer Varianz, die dem Modellparameter folgt)
Die Residuen auf Ebene 2 sind unabhängig und identisch multivariat normalverteilt (mit Erwartungswerten gleich 0 und einer Varianz- Kovarianz-Matrix, die dem Modell folgt)
Regressionsdiagnostik
Ob die Voraussetzungen verletzt sind und/oder einflussreiche Datenpunkte vorliegen, kann mit Methoden der Regressionsdiagnostik überprüft werden (z.B. implementiert im R-Paket HLMdiag)
2. Verletzung der Voraussetzungen:
- Die Schätzung der festen Parameter ist relativ robust gegenüber einer Verletzung der Voraussetzungen (z.B. bezüglich Normalverteilung)
- Die Schätzung der zufälligen Parameter, insbesondere auf Ebene 2, kann dagegen bei Verletzung der Voraussetzungen zu verzerrten Ergebnissen führen
→ eine gute Absicherung gegen inferenzstatistische Fehlschlüsse ist eine große Anzahl von Level-2 Einheiten (z.B. > 100)
Welches Maß wird zur Varianzaufklärung verwendet?
In multiplen Regressionsanalysen kann die Nützlichkeit einer UV anhand der inkrementellen Varianzaufklärung ΔR2 bezüglich der AV quantifiziert werden
Dies ist bei Mehrebenenanalysen aus zwei Gründen nicht so einfach möglich
– Es gibt nicht nur eine Residualvarianz, sondern Residualvarianzen auf Ebene 1 und 2: Dadurch entstehen verschiedene Möglichkeiten, die Varianzreduktion (die durch die Hinzunahme der UV erreicht wird) zu definieren
– Die geschätzte Residualvarianz auf Ebene 2 (d.h. der Achsenabschnitte) kann (verursacht durch Stichprobenfehler) bei Hinzunahme einer UV größer werden (was zu einer scheinbar negativen inkrementellen Varianzaufklärung führen würde)
→ Trotz dieser Schwierigkeiten können sog. „Pseudo-R2“Werte bestimmt werden, die angeben, wie groß die relative Reduktion bestimmter Varianzen durch Hinzunahme von UVs ist
→ Eine weitere Möglichkeit ist die Bestimmung des marginalen und konditionalen R2 zur Quantifizierung der Güte des Gesamtmodells (Nakagawa & Schielzeth, 2013)
– Das marginale R2 entspricht dem durch den festen Teil des Modells erklärten Anteil der Gesamtvarianz
– Das konditionale R2 entspricht dem durch den festen und zufälligen Teil erklärten Anteil der Gesamtvarianz
– Die beiden Koeffizienten lassen sich anhand der Funktion r.squaredGLMM aus dem R-Paket MuMIn bestimmen
Beschreibe den Vorgang bei der Maximum Likelihood Schätzung in HLM.
Die ML-Methode ist ein iteratives (schrittweises) Verfahren zur Schätzung der Parameter:
- Im ersten Schritt werden für die Parameter plausible Startwerte ausgewählt und es wird berechnet, wie wahrscheinlich es ist, bei Geltung dieser Werte diebeobachteten Daten zu erhalten („Likelihood-Funktion“)
Im Folgenden werden die Parameter schrittweise so verändert, dass die Likelihood-Funktion immer größer wird
Das Verfahren „konvergiert“, wenn die Verbesserung der Likelihood-Funktion einen kritischen Wert unterschreitet (d.h. die Parameter gefunden wurden, bei deren Geltung die Wahrscheinlichkeit der beobachteten Daten maximal ist)
Welche zwei Ansätze zur Bestimmung der Likelihood-Funktion werden unterschieden?
Full-Maximum-Likelihood-Funktion (FML): hier wird der feste und der zufällige Teil des Modells simultan geschätzt
→ Beide ML-Funktionen führen bei hinreichend großen Stichproben zu ähnlichen Ergebnissen, können sich aber in den Schätzungen der zufälligen Komponenten unterscheiden
Restricted-Maximum-Likelihood-Funktion (RML): hier wird zuerst der zufällige Teil und dann der feste Teil des Modells geschätzt
→ Die RML-Funktion führt zu weniger verzerrten Schätzungen, bietet aber keine Möglichkeit Modelle inferenzstatistisch zu vergleichen, die sich hinsichtlich fester Effekte unterscheiden
Welche Methode zur Bestimmung der Likelihood-Funktion ist in R standardmäßig voreingestellt?
In lme4 ist die RML-Methode standardmäßig voreingestellt; wenn man die FML-Methoden verwenden möchte, muss man das Argument REML = FALSE setzen (wie im Beispiel)
Welche Fragen kann man mit Modellen beantworten, die einen Cross-Level-Interaktionseffekt enthalten?
z.B. Lässt sich die Variation in den personenspezifischen Regressionsgewichten, d.h. im Effekt der positiven Ereignisse eines Tages (X) auf die internalisierenden Symptome (Y), anhand der Ausprägung der emotionalen Labilität (Z) erklären?
→ emotionale Labilität: Level-2-Variable
→ positive Ereignisse eines Tages: Level-1-Variable
Welche Möglichkeiten der Zentrierung gibt es in Mehrebenenmodellen für Level-1 UVs?
- Zentrierung am Gesamtmittelwert („grand mean centering“)
- Zentrierung am personenspezifischen Mittelwert(„group/person mean centering“)
→ Empfehlenswert ist in den meisten Fällen die Zentrierung am Gesamtmittelwert
Wie können die Parameter von Mehrebenenmodellen auf Signifikanz geprüft werden?
Parameter können inferenzstatistisch getestet werden, indem das vorliegende Modell mit einem restriktiveren Modell ohne den betreffenden Parameter verglichen wird
- Der hierzu verwendete „Devianztest“ entspricht exakt dem Likelihood-Ratio-Test*
- Es wird geprüft, ob die Hinzunahme des Parameters die Devianz signifikant verringert (d.h. die Likelihood-Funktion signifikant vergrößert)
Alternativ können die beiden Modelle auch deskriptiv anhand informationstheoretischer Maße* (z.B. AIC oder BIC) verglichen. werden
Warum ist die Angabe der Nützlichkeit einer UV in Mehrebenenmodellen nicht so einfach möglich?
Dies ist bei Mehrebenenanalysen aus zwei Gründen nicht so einfach möglich:
– Es gibt nicht nur eine Residualvarianz, sondern Residualvarianzen auf Ebene 1 und 2: Dadurch entstehen verschiedene Möglichkeiten, die Varianzreduktion (die durch die Hinzunahme der UV erreicht wird) zu definieren
– Die geschätzte Residualvarianz auf Ebene 2 (d.h. der Achsenabschnitte) kann (verursacht durch Stichprobenfehler) bei Hinzunahme einer UV größer werden (was zu einer scheinbar negativen inkrementellen Varianzaufklärung führen würde)
Worin besteht das Simpson-Paradox?
Innerhalb der Level-2-Einheiten (z.B. Klassen) kann sich der Zusammenhang zwischen zwei Variablen ganz anders (z.B. mit anderem Vorzeichen) darstellen als über alle Level-2- Einheiten hinweg (d.h. ohne Berücksichtigung der Schachtelung)
-
- 1 / 56
-