Staddi

VL 1-13

VL 1-13


Kartei Details

Karten 268
Sprache Deutsch
Kategorie Mathematik
Stufe Universität
Erstellt / Aktualisiert 17.01.2025 / 04.02.2025
Weblink
https://card2brain.ch/box/20250117_staddi
Einbinden
<iframe src="https://card2brain.ch/box/20250117_staddi/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Schwellen für Cohen's f2 (Effektgrösse, die in der Poweranalyse genutzt wird, um die optimale SPGröße für die Aufdeckung eines best Effekts zu berechnen

 

=.02 = kleiner Effekt

=.15 = mittlerer Effekt

=.35 = großer Effekt

Reihenfolge für Berechnung optimaler SP Grösse bei A priori Power-Analyse

- Signifikanzniveau festlegen- Power festlegen- Anzahl Präds festlegen- effektgrösse festlegen (f2, errechnet aus R2)-optimale SP Grösse zb mit G*Power berechnen lassen

Was ist der multiple Korrelationskoeffizient?

Stärke des Zusammenhangs von Prädiktoren und KriteriumKorrelation zwischen vorhergesagten und tatsächlichen Werten im Kriterium R = rYYdach

Wofür kann man ein KI in der mult Reg berechnen? (mit der "predict" Funktion und ci.lvl in R?

- für einzelne Populationsparameter, z.B. ßj

- für die Regressionsgerade (als Band) (Schätzung wird mit zunehmendem Abstand vom Mittelwert unpräziser)

- für die individuellen vorhergesagten Werte (als breites Band)

Was sagt mir das KI in der multReg Diagnostik? (denn die Parameterschätzungen sind mit Unsicherheit behaftet)

GIbt Aussage darüber, dass der wahre Wert mit einer bestimmten Zuverlässigkeit ("Konfidenz") in diesem Bereich liegt. 

Def Teststärke

Wahrscheinlichkeit, einen Effekt aufzudecken, den es tatsächlich gibt (1-ß)

Welche Teststärkengröße wird angestrebt?

.80-> wird beeinflusst von SPGröße, Effektgröße, Signifikanzniveau

Welche Variablen werden bei theoriegeleiteter Prädiktorenauswahl in die Reggleichung mit aufgenommen und mit welchem Ziel?

Alle Variablen, von denen man theoretisch einen Beitrag erwartet. Ziel dabei: Test von theoretischem Modell.

Risiko bei theoriegeleiteter Prädiktorenauswahl

Overfitting (Aufnahme irrelevanter Präds)

2 Risiken bei datengesteuerter Prädiktorenauswahl?

Capitalisation of Chance (Auswahl von SP-Fehlern beeinflusst) und Underfittung (Ausschluss theoretisch relevanter Präds)

Was ist das Ziel der datengesteuerten Prädiktorenauswahl?

Maximale Varianzaufklärung mit minimaler Modellkomplexität/ Prädiktorenanzahl (Sparsamkeit)

-> ist effiziente, abr weniger präzise Vorhersage als die theoriegeleitete Prädiktorenauswahl

Vorgehen bei der theoriegesteuerten Prädiktorenauswahl

blockweise (in Variablengruppen)

Reihenfolge der Aufnahme hängt von der Fragestellung ab, und die Inkremente wiederum von der Reihenfolge. 

Nutzung der theoriegeleiteten Prädiktorenauswahl

für das Testen von Zusammenhangshypothesen. Meist weniger effiziente Vorhersage von Merkmalen

Nutzung der datengesteuerten Prädiktorenauswahl

explorativ, Ergebnisse sollte in anderen SP kreuzvalidiert werden

Wie kann man die Normalverteilung der Residuen (Voraussetzung für die einfache und multiple Regression) prüfen?

Über das Histogramm der Residuen

4 Voraussetzungen (Annahmen) der einfachen Regressionsanalyse

- Prädiktoren metrisch oder dichotom, Kriterium metrisch

- Homoskedastizität (gleiche bedingte Varianzen in Y für alle X)

- Normalverteilte Residuen

- Unabhängigkeit der Residuen (zufällige Fehler, zb keine mehrstufigen SPs)

5 Voraussetzungen der multiplen Regression

1. Korrekte Spezifikation des Modells / kein Underfitting und Overfitting

2. Messfehlerfreiheit der UVs

3. Homoskedastizität

4. Unabhängigkeit der Fehler

5. NV der Residuen

Worüber kann ich bei Verletzung der Messfehlerfreiheit der UVs dessen Größe schätzen?

Reliabilität (Varianzanteil, der durch tatsächliche Unterschiede im Merkmal zustande kommt) und Literatur

Abhilfe bei Verletzung der Messfehlerfreiheit der UVs

entsprechende Modelle verwenden (Strukturgleichungsmodelle), Skalen mit hoher Reliabilität nutzen, nicht zu wenige Items nutzen (Reliabilität steigt mit Itemzahl)

Wie sieht der Residuenplot bei Homoskedastizität aus?

Residuen streuen gleich ("konstant") über den gesamten Wertebereich

Wie sieht der Residuenplot bei Heteroskedastizität aus?

Residuen streuen trichterförmig oder in anderer Gestalt

Wie sieht der Residuenplot bei Normalverteilung aus?

viele Werte in der Mitte, wenige außen

-> Prüfen mit PP-plot, QQ-plot, Residuenplot

Was schaut man bei der Homoskedastizität (auswendig, verstehe es nicht)

Man schaut, ob für alle Ausprägungen der AV die Residuen um Null streuen und ob diese Streuungüberall in etwa gleich groß ist.  

Homoskedastizität bei unstandardisierten Residuen = 

Die Streuung der Residuen ist über den gesamten Wertebereich gleich groß = ihr Mittelwert = 0 -> gute Modellspezifikation

Konsequenzen der Verletzung der Voraussetzungen

                                            Regkoeffs                         Standardfehler d. Regkoeffs

Korrekte Spezifikation         verzerrt geschätzt                 verzerrt berechnet

Messfehlerfreiheit UVs        verzerrt geschätzt                 verzerrt berechnet

Homoskedastizität               keine Verzerrung                 verzerrt berechnet

Unabhängigkeit Residuen   keine Verzerrung                 verzerrt berechnet

NV Residuen                       keine Verzerrung                  verzerrt berechnet     

Formel Toleranzfaktor

TOLj = 1 - R^2j;1....(j).....k

-> 1 - quadrierte multiple Korrelation zwischen Xj und allen anderen Präds

Wie sollte der Toleranzfaktor für möglichst wenig Multikollinearität sein?

nahe 1

Formel Varianzinflationsfaktor

VIFj = 1/TOLj

Wie sollte der Varianzinflationsfaktor sein?

Nahe 1 und kleiner als 5.

Was ist los, wenn der VIFj höher als 5 ist?

hohe Multikollinearität

Bei welchem TOLj habe ich exakte Multikollinearität?

0 (wenn R^2 1 ist)

Wie kann man Multikollinearität reduzieren? (4 Punkte)

- Zentrierung

- Eliminierung von Präds

- Aggregation (Zusammenfassung) von Präds, die das gleiche Konstrukt erfassen -> zb mehrere Items eines Fragebogens zu einer Variable zusammenfassen oder Mittelwerte bilden

- Faktorenanalytische Reduktion (statt vieler korrelierender Variablen wenige unkorrelierte Faktoren berücksichtigen)

Ab wann ist Korrel zwischen den Prädiktorvariablen (Multikollinearität) wirklich problematisch?

Nur, wenn sie sehr hoch ist (ab ca .8). TOLj wäre dann bei .2. In einem solchen Fall ist ein Präd evtl auch verzichtbar.

Kennwerte für Ausreißer/ extreme Werte, die sich auf Prädiktoren beziehen (zur Frage, ob ein Wert extrem ist oder nicht)

Mahalanobis-Distanz, Hebelwert, zentrierter Hebelwert

Kennwerte für Ausreißer/ extreme Werte, die sich auf die AV beziehen?

verschiedene Arten von Residuen

Welche Residuen sind am genausten für die Schätzung eines Ausreißers auf der AV?

studentisierte, ausgeschlossene Residuen

Müssen die Kennwerte der Mahalanobis-Distanz, Hebelwert, versch Residuen groß oder klein sein, um Ausreißer festzustellen?

größerer Wert indiziert Extremheit

Welche Kennwerte (Differenzen) beziehen sich auf den Einfluss von einzelnen Datenpunkten?

-> jeweils ein Datenpunkt pro Regkoeff (bei 1)) und Person/Fall

DfBETA(S) (Einfluss eines einzelnen Werts auf Schätzung d. Regkoeffs)

DfFIT(S) (Einfluss eines einzelnen Werts auf Schätzung d. vorhergesagten Werte)

Cooks Distanz (")

Unterschied Ausreißer & einflussreiche Datenpunkte?

einflussreiche Datenpunkte sind wahrscheinlich Ausreißer, die die Schätzung der Regressionsparameter stark beeinflussen (diese verändert sich stark, wenn dieser Datenpunkt aus den Daten entfernt wird)

Was sind Ausreißer? (3 Punkte)

1) Werte, die sich stark von den restlichen unterscheiden

2) Können auf AV oder UV auftreten

3) Können (aber müssen nicht) die Parameterschätzung verzerren