Staddi
VL 1-13
VL 1-13
Fichier Détails
Cartes-fiches | 268 |
---|---|
Langue | Deutsch |
Catégorie | Mathématiques |
Niveau | Université |
Crée / Actualisé | 17.01.2025 / 04.02.2025 |
Lien de web |
https://card2brain.ch/box/20250117_staddi
|
Intégrer |
<iframe src="https://card2brain.ch/box/20250117_staddi/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Welches Modell soll ich nehmen, wenn der Likelihood-Ratio-Differenzen Test signifikant wird?
Das komplexere mit weniger Restriktionen und weniger df.
Dieser Test heißt auch: Chi2-Differenzen-Test
dfdiff = dfB - dfA: Welches Modell ist B?
Das restriktivere
Wie muss b1 nach dem Kriterium der kleinsten Quadrate bestimmt werden?
Für folgenden Wert von b1 ist Summenzeichen(yi-ydach)^2 -> Minimal:
b1 = Sxy / s^2x = rxy*Sy/Sx
Wie muss b0 nach dem Kriterium der kleinsten Quadrate berechnet werden?
Für folgenden Wert von b0 ist Summenzeichen(yi-ydach)^2 minimal:
b0 = ystrich-b1*xstrich (strich = MW)
Interpretation b1?
b1 = Steigung = Regressionsgewicht.
Wenn der x-Wert um eine EInheit steigt, verändert sich der y-Wert um b1 Einheiten. Somit ist b1 auch die Steigung der Regressionsgeraden.
Interpretation b0?
b0 = Achsenabschnitt
Dieser y-Wert wird für einen x-Wert von 0 erwartet. (Y-Wert für X = 0)
4 Eigenschaften von Residualwerten
1. Summer aller Quadrierten Regressionsresiduen ist minimal (Kriterium d. kleinsten Quadrate)
2. Summe aller Residuen = 0
3. Die Residuen sind mit der Prädiktorvariable X unkorreliert
4. Die Residuen sind mit der Kriteriumsvariable Y unkorreliert.
Wann sollte ich Variablen standardisieren, wann nicht standardisieren?
Nicht standardisieren, wenn:
- Originalmetrik sinnvoll interpretierbar
- Gruppen verglichen werden (weil MW- und Varianzunterschiede zu unterschiedlichen z-Werten führen können)
- Ein Wert vorhergesagt werden soll
Standardisieren, wenn:
- Originalmetrik nicht sinnvoll interpretierbar
- Prädiktoren verglichen werden sollen, die sich in Originalmetrik, MW, Stabw unterscheiden
Formel und Bedeutung Standardschätzfehler
- durchschnittliche Abweichung der beobachteten von den vorhergesagten Werten/ einzelner Wert, der ausdrückt, wie "groß" die Residuen sind.
+ gut für Vergleicehe verschiedener Modelle mit gleicher Variablen
- Ist nicht standardisiert, daher schlecht für Vergleiche über Stichproben, Studien hinweg. Dafür gibt es: den Determinationskoeffizienten
Welche Werte kann R^2 annehmen?
Range: 0-1
0 = Varianzen sind unkorreliert, X kann Unterschiede in Y nicht erklären.
1 = VArianzen perfekt korreliert: Alle Unterschiede in Y gehen aus Unterschieden in X hervor.
Welche Frage stellen wir uns bei den Signifikanztests der einfachen Regression?
Leistet der Prädiktor einen bedeutsamen (signifikanten) Beitrag zur Vorhersage des Kriteriums?
Welche 3 Signifikanztests gibt es für die einfache Regression?
- t-Test des Korrelationskoeffizienten
- t-Test des Regressionsgewichts
- F-Test der Regression
Was prüft der F-Test der Regression, was ist die Prüfgröße und warum?
Vergleicht den vorhergesagten Anteil der Kriteriumsvariabilität, die auf Prädiktor zurückgeht (SSReg) mit dem Anteil der Kriteriumsvariabilität, der unerklärt ist(SSRes).
Prüfgröße: Femp = MSReg / MS Res. Wenn größer als 1: Ist MSReg größer als MSRes, das heißt die erklärbare Varianz ist größer als der Zufall.
2 Defs Partialkorrelation
- Zusammenhang zweier Variablen, nachdem der Einfluss einer dritten Variable kontrolliert wurde (wie ist egal)
- bivariate Korrelation zwischen zwei Residualvariablen
hier beeinflusst die Drittvariable beide anderen Variablen kausal
Schreibweise der Partialkorrelation und woraus wird sie berechnet (egal, wie)?
rXY punkt Z = rE(noch eins drunter X(Z)E(noch eins drunter)Y(Z)
lässt sich aus drei bivariaten Korrelationen berechnen und ist hier der Zusammenhang zwischen X und Y, bereinigt um die Variable Z
Zwei Definitionen der Semipartialkorrelation
- Zusammenhang zweier Variablen, nachdem der Einfluss einer dritten aus einer der beiden "Prädiktoren" eliminiert wurde
- Korrelation zwischen einem Prädiktor und einem Regressionsresiduum
kann wie die Partialkorrelation über die bivariaten Korrelationen ermittelt werden. man geht davon aus: Drittvariable beeinflusst nur eine der beiden anderen kausal.
Entscheidung: Partial- oder Semipartialkorrelation?
Partial:
- man geht davon aus, Drittvariable beeinflusst beide anderen kausal (man hätte sonst keine MultReg gemacht, sondern es geht eh nur um die linReg)
Semipartial:
- man geht davon aus, Drittvariable beeinflusst nur eine der beiden Variablen kausal
- man möchte den zusätzlichen Beitrags eines Prädiktors wissen
Bedingungen für Kausalität
- Zusammenhang zweier Variablen
- zeitliche Ordnung
- Kontrolle von Störvariablen
-> Wir wollen im Folgenden immer eine VAriable aus einer anderen erklären. Die Kausalbeziehung lässt sich eigentlich nur versuchsplanerisch sichern, aber die Kontrolle von Störvariablen versuchen wir statistisch auch mit bspw Partialkorrelation, Kovarianzanalyse. Erstere ist Basis für MultReg
Wofür brauchen wir Partialkorrelation und Semipartialkorrelation im Kontext der Multiplen Regressionsanalyse?
Partialkorrelation: auf der Basis werden die Prädiktoren errechnet (Beitrag zum Kriterien, wenn andere Prädiktoren rausgerechnet/konstant gehalten sind)
Semipartialkorrelation: über sie kann die Nützlichkeit eines Prädiktors beurteilen: also wieviel ein Prädiktor über die anderen hinaus an Kriteriumsvarianz erklärt
Interpretation Achsenabschnitt in multipler Regression
Erwarteter Y-Wert, wenn alle Prädiktoren die Ausprägung 0 annehmen.
Interpretation Regressionsgewicht b1 in multipler Regression?
Erwartete Änderung in Y, wenn sich X1 um eine Einheit ändert und die anderen Prädiktoren KONSTANT GEHALTEN werden. (Bsp: pro einem Euro mehr (X1 = Gehalt), b1 Einheit mehr Beziehung, zb b1 Jahre )
Oder: Partialregression von X1 und Kriterium, bereinigt um den Einfluss aller anderen Prädiktoren
multiples Regressionsgewicht = bedingtes einfaches Regressionsgewicht
Wie lässt sich die multiple Regression grafisch darstellen?
Als Ebene im Raum (aber nur wenn 2 Prädiktoren - ab mehr ist Darstellung nicht mehr möglich)
unstandardisiertes multiples Regressionsgewicht
- gibt an, um wieviele Einheiten sich die Y-Werte ändern, wenn sich Xj um eine Einheit ändert und alle anderen Präds konstant gehalten werden
- > nötig, um vorhergesagte Werte zu berechnen
Standardisiertes multiples Regressionsgewicht
- gibt an, um wieviele Standardabweichungen sich die vorhergesagten Y-Werte ändern, wenn sich Xj um eine Standardabweichung ändert und alle anderen Prädiktoren konstant gehalten werden.
-> diesem kann man die Gewichtung/Bedeutung der einzelnen Präds entnehmen: das größte ist am wichtigsten
-> erhält man, indem man alle Variablen z-transformiert.
Multipler Korrelationskoeffizient und Determinationskoeffizient
R = Stärke des Zusammenhangs aller Präds und Kriterium (Wertebereich: -1 - 1)
R^2 = gibt den Anteil der durch alle Präds aufgeklärten Varianz an (Wertebereich: 0-1)
4 Regeln für den multiplen Determinationskoeffizienten
1) R UND R^2 sind mindestens so groß wie der größte einfache Korrelationskoeffizient eines Prädiktors mit dem Kriterium
2) Sind die Präds unkorreliert, dann ist R^2 die Summe der r^2
3) Sind die Präds untereinander korreliert, dann ist R^2 meist kleiner als oder gleich die Summe der r^2
4) ABER: manchmal ist R^2 auch größer als die Summe der einzelnen r^2 (=Suppression)
Welches Modell gilt als "besser"?
Jenes, das die Daten mit möglichst kleinen Fehlern beschreibt (Passung) und mit den wenigsten Modellparametern auskommt (Sparsamkeit)
Meistens ist das Modell mit mehr Parametern besser. Aber ich möchte dann rausfinden, ob mein sparsameres Modell wirklich signifikant schlechter ist (sign Abnahme von R^2 wird berechnet)
Def Inkrement
Nützlichkeit ; Dreieck R^2
Anteil Kriteriumsvarianz / Zunahme in der Kriteriumsvarianz, der durch die neue Aufnahme eines Prädiktors zusätzlich erklärt wird. Entspricht der quadrierten Semipartialkorrelation.
Ggteil: Dekrement
Ist der Determinationskoeffizient der SP ein erwartungstreuer Schätzer von Rho2 (Determinationskoeffizient in der Population)?
Was ist richtig
Welche 4 Fragen und damit verbundenen Tests gibt es für die Inferenzstatistik der multiplen Regression?
1. Wie hoch ist Rho2, d.h. wieviel Varianz klären die Prädiktoren auf? (Dafür R2adj/ Rho2dach berechnen, nicht auswendig)
2. Erklären die Präds gemeinsam überhaupt Varianz am Kriterium? (F-Test zur Signifikanztestung von R2)
3. Welcher Präd hat signifikanten Vorhersagebeitrag für Kriterium? (t-Test zu jedem Reggewicht, ob es sich von 0 unterscheidet)
4. Hat ein Modell mit mehr Prädiktoren einen signifikant höheren Vorhersagebeitrag als ein Modell mit weniger Prädiktoren? (F-Test zur inkrementellen Validität eines Prädiktors: Modelle hier sind geschachtelt)
(2. Frage) Welche beiden H0s kann man beim F-Test der multReg aufstellen?
Rho2 = 0
Alle bj = 0
Welche beiden H1 kann ich beim F-Test der multReg aufstellen?
Rho2≠0
Mind ein bj≠ 0
Was passiert beim "F-Test des Inkrements" / dem F-Test zur inkrementellen Validität eines Prädiktors?
Zwei Modelle (eins mit und eins ohne den Prädiktor, dessen Inkrement/Nützlichkeit getestet werden soll) werden mittels F-Test verglichen: unterscheidet sich der aufgeklärte Varianzanteil zwischen den beiden Modellen signifikant?
Formel nicht auswendig aber:
Modelle heißen R21 (ohne zusätzlichen Prädiktor) und R22 (mit zusätzlichem Prädiktor)
Df: n-k-1