Staddi
VL 1-13
VL 1-13
Fichier Détails
Cartes-fiches | 268 |
---|---|
Langue | Deutsch |
Catégorie | Mathématiques |
Niveau | Université |
Crée / Actualisé | 17.01.2025 / 04.02.2025 |
Lien de web |
https://card2brain.ch/box/20250117_staddi
|
Intégrer |
<iframe src="https://card2brain.ch/box/20250117_staddi/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Warum ist die Identifikation von Ausreißern wichtig?
Kriterium der kleinsten Quadrate führt dazu, dass Ausreißer besonders einflussreich sind. Nachdem Daten auf Plausibilität & EIngabefehler geprüft wurden, können noch besondere Fälle identifiziert und ggf ausgeschlossen werden
Welche vier Sachen möchte ich bei der Prüfung auf Ausreißer UND einflussreiche Datenpunkte rausfinden?
Fehlerhafte Werte, besondere Fälle, Subpopulationen, Normalverteilung noch gegeben? (abhängig davon, wie viele extreme Werte es gibt)
Definition einflussreiche Datenpunkte
Schätzung der Regparameter verändert sich stark, wenn dieser Datenpunkt aus den Daten entfernt wird. Dies ist meist bei extremen Ausprägungen auf AV und UV der Fall.
Umgang mit einflussreichen Datenpunkten?
Man kann einflussreiche Datenpunkte nicht einfach aus den Daten löschen (Gefahr p-Hacking)
- unplausibler/fehlerhafter Fall: wenn einflussreich: ausschließen, sonst nicht nötig
- besonderer Fall: wenn begründbar, dann ausschließen (Bill Hates)
- bekannte Subpops: kontrollieren (zb für Geschlecht)
- unbekannte Subpops: Mischverteilungsmodelle (?)
- Sensitivitätsanalyse (Ergebnisse mit und ohne Datenpunkt berichten)
- andere robustere Regressionsmethoden
Was passiert bei der klassischen Suppression?
Das Regressionsgewicht eines Prädiktors X1 wird größer, wenn ein weiterer Prädiktor in das Modell aufgenommen wird, der mit X1 korreliert, aber nicht mit dem Kriterium.
Was ist das Fazit der Suppresion?
Aus der Tatsache, dass ein Prädiktor nicht mit dem Kriterium korreliert, kann man nicht folgern, dass er im Rahmen einer multiplen Korrelation bedeutungslos ist.
Definition Moderation
Wirkung einer Variablen ist von der Ausprägung einer anderen Variablen abhängig. Bei der Moderation wirken zwei Variablen nicht unabhängig voneinander.
Wie wird die Moderation in der Regressionsgleichung dargestellt?
Durch multiplikative Verknüpfung von Moderator und Prädiktor.
Interpretation Moderatorterm (b3*V(X1*X2))
Variabler Effekt von der Variable X1/X2 (beides geht), der abhängig ist von X1/X2 (dem jeweils anderen)
Wenn b1 und b3 in moderierter Regression gleiches Vorzeichen haben?
Verstärkt X1 den Einfluss von X2 auf das Kriterium.
Worin zeigt sich ein Moderatoreffekt grafisch?
Darin, dass die Steigungen der Regressionsgeraden je nach Ausprägung des Moderators unterschiedlich steil sind.
Auf welche zwei Arten kann der Moderatoreffekt auf Signifikanz getestet werden?
Reggewicht b3 mit t-Test auf signifikante Unterschiedlichkeit von 0 testen
Inkrement des Modells mit Moderator testen: sign Unterschiedlichkeit von Modell R22 zu R21 (ohne Moderatoreffekt)
Def bedingte Regressionsgleichungen
Hier wird für die Moderatorvariable ein bestimmter Wert eingesetzt.
Interpretation von b3/ Moderatoreffekt bei bedingter Regression mit kodiertem Moderator
Differenz des Effekts von X1 auf Kriterium zwischen den beiden Moderator-Kategorien.
Was hängt bei bedingter Regression von der Moderatorausprägung ab?
Zusammenfassender Begriff für simple slope/ simple intercept
Bedingte Regressionskoeffizienten: Regressionskoeffizienten für bestimmte Ausprägung der Moderatorvariablen.
Welchen Signifikanzest kann ich für bedingte Regression machen?
t-Test des bedingten Reggewichts (simple slope) für bestimmten Wert der Reggeraden ("gibt es für 25jährige einen signifikanten Zusammenhang von Alter und Einsamkeit?")
-> das kann ich für verschiedene Ausprägungen des Moderators (also für die jeweiligen simple slopes) machen.
Interpretation b2 bei modReg mit X1 = metrisch und X2 = kategorial
Unterschied in Kriterium zwischen Kategorie 1 von X2 bei mittlerem/ 0 X1 und Kategorie 2 von X2 bei mittlerem/ 0 X1
Umgeformte Gleichung für bedingte Regression (mit simple intercept und simple slope)
Y = b0 - b2 * LAND (simple intercept) + (b1 - b3 * LAND) (simple slope) * PA + E (Land = Moderator)
Interpretation b1 bei modReg mit Moderatorkategorien 0 und 1
Effekt von X1 auf Kriterium bei der 0-Ausprägung des Moderators (zb Effekt von PA auf Lezu in USA)
Was verändert sich bei Zentrierung?
- Regressionsgewichte der zentrierten Variablen verändern sich
- Standardfehler der Regressionsgewichte der ZENTRIERTEN Variablen werden kleiner (wünschenswert)
Was bleibt gleich bei Zentrierung?
- Regressionsgewicht der Produktvariablen
- Standardfehler des Regressionsgewicht der Produktvariablen -> Stärke des Modeffekts und seine intstat Beurteilung sind von Zentrierung unabhängig.
- Verlauf der bedingten Regressionsgeraden (nur nach links/rechts verschoben)
- Determinationskoeffizient der multReg identisch für Modell mit und ohne zentrierte Variablen
Was passiert bei der Zentrierung mit der Multikollinearität?
- Korrelation der einzelnen (falls nur eine Variable zentriert wurde: die der nicht zentrierten) Variable mit ihrer Produktvariable wird kleiner. Weil durch die Zentrierung die Variable mal positive und mal negative Werte aufweist, und diese dann in der Produktvariable multipliziert werden. Dabei kann die Korrelation nicht mehr so hoch sein wie mit der ursprünglichen Produktvariablen. Bei NV beider Variablen: ist die Korrel jeder zentrierten Variablen mit dem Produkt beider Variablen null, aber auch ohne NV deutlich kleiner als mit der unzentrierten Variablen. (wenn beide zentriert werden)
Was darf ich bei nicht-linearen Zusammenhängen nicht aus der Grafik ableiten?
Keine Extrapolation über untersuchten Wertebereich von X hinaus
2 Probleme/ Herausforderungen bei Analyse nicht-linearer Zusammenhänge
1. es entstehen zwangsläufig korrelierte Präds (weil sie auseinander berechnet werden) = Multikollinearität
2. Es müssen alle Terme niedrigerer Ordnung mit in das Modell aufgenommen werden, um Fehlinterpretationen zu vermeiden.
Lösung für Multikollinearität bei nicht-linearen Präds
Zentrierung
Bei einer multReggleichung mit mehreren Präds kann es schnell eine Vielzahl potentieller nicht-linearer Präds geben. Lösung:
nicht-lineare Effekte nur dann prüfen, wenn: es theoretische Argumente dafür gibt oder nicht-lineare Zusammenhänge in einer Grafik deutlich erkennbar sind
Generell zu beachten bei nicht-linearen Modellen (6 Punkte)
Modell sollte immer auch theoretisch plausibel sein, rein explorative Befunde müssen repliziert werden, auf Ausreißer achten, Regkurven sind für sehr niedrige/ hohe Werte auf X nicht sehr informativ (beruht auf wenig Daten) +2
4 Punkte: Was gilt für alle Kodier-Arten?
- kategoriale Variable mit c Ausprägungen kann in c-1 Kodiervariablen abgebildet werden
- aus Kodiervariablen muss eindeutig Ausprägung der Variablen rekonstruiertbar sein
- Kodierung darf implizit keine anderen Annahmen vornehmen (zb Bedeutung d. Abstände) (deswegen geht nicht 1,2,3, sondern wir teilen die gesamte Variable in mehrere dichotome Untervariablen (=Kodiervariablen) auf)
- iede Kodiervariable beinhaltet einen Teil der Info der Prädiktorvariablen, zusammen sind sie die gesamte im Prädiktor enthaltene Info
Worauf hat die Art der Kodierung keinen Einfluss?
auf die insgesamt durch die kategoriale Variable aufgeklärte Varianz (R^2)
Was unterscheidet sich für unterschiedliche Arten der Kodierung?
Interpretation Regressionskoeffizient und die Ergebnisse für deren einzelne Signifikanztests (weil hier auch unterschiedliche Dinge mit abgebildet werden)
Bei der Dummy-Kodierung gibt es einen Vergleich mit ?
dem Mittelwert einer Referenzgruppe
Bei der Effekt-Kodierung gibt es einen Vergleich mit?
dem Gesamtmittelwert
Wie sollte die Referenzkategorie bei der Dummy-Kodierung gewählt werden? (3 Punkte)
sinnvoller Vergleichsstandard, nicht viel kleiner als die anderen Gruppen, klar definiert (nicht einfach "Rest")
Interpretation b0 bei Dummy-Kodierung
Mittelwert der Referenzkategorie (Wert, den eine Person hat, wenn sie auf allen Kodiervariablen die Ausprägung 0 hat)
Interpretation b1 bei Dummy-Kodierung?
Mittelwert der X1- mit 1 kodierten Gruppe MINUS Mittelwert der Referenzkategorie
Warum gibt es nicht 3 Dummy-Variablen bei 3 Kategorien in der Effekt-Kodierung?
die dritte Variable wäre perfekt mit den anderen beiden korreliert
Wie kann ich mir die Regression mit Kodierung vorstellen (selbst zum verstehen)
einfache Regression (weil nur ein (metrisches) Kriterium und einen (kategorialen) Prädiktor. Mehrere Prädiktorvariablen habe ich nur, weil hier die Info im einzelnen Präd aufgesplittet wird. Das, was zutrifft, bekommt auf der Variablen pro Fall eine 1
Welche Werte nimmt die Referenzkategorie auf den Kodiervariablen bei der Effektkodierung an?
-1
Interpretation b0 bei Effekt-Kodierung
ungewichteter Gesamtmittelwert