Staddi
VL 1-13
VL 1-13
Fichier Détails
Cartes-fiches | 268 |
---|---|
Langue | Deutsch |
Catégorie | Mathématiques |
Niveau | Université |
Crée / Actualisé | 17.01.2025 / 04.02.2025 |
Lien de web |
https://card2brain.ch/box/20250117_staddi
|
Intégrer |
<iframe src="https://card2brain.ch/box/20250117_staddi/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Schwellen für Cohen's f2 (Effektgrösse, die in der Poweranalyse genutzt wird, um die optimale SPGröße für die Aufdeckung eines best Effekts zu berechnen
=.02 = kleiner Effekt
=.15 = mittlerer Effekt
=.35 = großer Effekt
Reihenfolge für Berechnung optimaler SP Grösse bei A priori Power-Analyse
- Signifikanzniveau festlegen- Power festlegen- Anzahl Präds festlegen- effektgrösse festlegen (f2, errechnet aus R2)-optimale SP Grösse zb mit G*Power berechnen lassen
Was ist der multiple Korrelationskoeffizient?
Stärke des Zusammenhangs von Prädiktoren und KriteriumKorrelation zwischen vorhergesagten und tatsächlichen Werten im Kriterium R = rYYdach
Wofür kann man ein KI in der mult Reg berechnen? (mit der "predict" Funktion und ci.lvl in R?
- für einzelne Populationsparameter, z.B. ßj
- für die Regressionsgerade (als Band) (Schätzung wird mit zunehmendem Abstand vom Mittelwert unpräziser)
- für die individuellen vorhergesagten Werte (als breites Band)
Was sagt mir das KI in der multReg Diagnostik? (denn die Parameterschätzungen sind mit Unsicherheit behaftet)
GIbt Aussage darüber, dass der wahre Wert mit einer bestimmten Zuverlässigkeit ("Konfidenz") in diesem Bereich liegt.
Def Teststärke
Wahrscheinlichkeit, einen Effekt aufzudecken, den es tatsächlich gibt (1-ß)
Welche Teststärkengröße wird angestrebt?
.80-> wird beeinflusst von SPGröße, Effektgröße, Signifikanzniveau
Welche Variablen werden bei theoriegeleiteter Prädiktorenauswahl in die Reggleichung mit aufgenommen und mit welchem Ziel?
Alle Variablen, von denen man theoretisch einen Beitrag erwartet. Ziel dabei: Test von theoretischem Modell.
Risiko bei theoriegeleiteter Prädiktorenauswahl
Overfitting (Aufnahme irrelevanter Präds)
2 Risiken bei datengesteuerter Prädiktorenauswahl?
Capitalisation of Chance (Auswahl von SP-Fehlern beeinflusst) und Underfittung (Ausschluss theoretisch relevanter Präds)
Was ist das Ziel der datengesteuerten Prädiktorenauswahl?
Maximale Varianzaufklärung mit minimaler Modellkomplexität/ Prädiktorenanzahl (Sparsamkeit)
-> ist effiziente, abr weniger präzise Vorhersage als die theoriegeleitete Prädiktorenauswahl
Vorgehen bei der theoriegesteuerten Prädiktorenauswahl
blockweise (in Variablengruppen)
Reihenfolge der Aufnahme hängt von der Fragestellung ab, und die Inkremente wiederum von der Reihenfolge.
Nutzung der theoriegeleiteten Prädiktorenauswahl
für das Testen von Zusammenhangshypothesen. Meist weniger effiziente Vorhersage von Merkmalen
Nutzung der datengesteuerten Prädiktorenauswahl
explorativ, Ergebnisse sollte in anderen SP kreuzvalidiert werden
Wie kann man die Normalverteilung der Residuen (Voraussetzung für die einfache und multiple Regression) prüfen?
Über das Histogramm der Residuen
4 Voraussetzungen (Annahmen) der einfachen Regressionsanalyse
- Prädiktoren metrisch oder dichotom, Kriterium metrisch
- Homoskedastizität (gleiche bedingte Varianzen in Y für alle X)
- Normalverteilte Residuen
- Unabhängigkeit der Residuen (zufällige Fehler, zb keine mehrstufigen SPs)
5 Voraussetzungen der multiplen Regression
1. Korrekte Spezifikation des Modells / kein Underfitting und Overfitting
2. Messfehlerfreiheit der UVs
3. Homoskedastizität
4. Unabhängigkeit der Fehler
5. NV der Residuen
Worüber kann ich bei Verletzung der Messfehlerfreiheit der UVs dessen Größe schätzen?
Reliabilität (Varianzanteil, der durch tatsächliche Unterschiede im Merkmal zustande kommt) und Literatur
Abhilfe bei Verletzung der Messfehlerfreiheit der UVs
entsprechende Modelle verwenden (Strukturgleichungsmodelle), Skalen mit hoher Reliabilität nutzen, nicht zu wenige Items nutzen (Reliabilität steigt mit Itemzahl)
Wie sieht der Residuenplot bei Homoskedastizität aus?
Residuen streuen gleich ("konstant") über den gesamten Wertebereich
Wie sieht der Residuenplot bei Heteroskedastizität aus?
Residuen streuen trichterförmig oder in anderer Gestalt
Wie sieht der Residuenplot bei Normalverteilung aus?
viele Werte in der Mitte, wenige außen
-> Prüfen mit PP-plot, QQ-plot, Residuenplot
Was schaut man bei der Homoskedastizität (auswendig, verstehe es nicht)
Man schaut, ob für alle Ausprägungen der AV die Residuen um Null streuen und ob diese Streuungüberall in etwa gleich groß ist.
Homoskedastizität bei unstandardisierten Residuen =
Die Streuung der Residuen ist über den gesamten Wertebereich gleich groß = ihr Mittelwert = 0 -> gute Modellspezifikation
Konsequenzen der Verletzung der Voraussetzungen
Regkoeffs Standardfehler d. Regkoeffs
Korrekte Spezifikation verzerrt geschätzt verzerrt berechnet
Messfehlerfreiheit UVs verzerrt geschätzt verzerrt berechnet
Homoskedastizität keine Verzerrung verzerrt berechnet
Unabhängigkeit Residuen keine Verzerrung verzerrt berechnet
NV Residuen keine Verzerrung verzerrt berechnet
Formel Toleranzfaktor
TOLj = 1 - R^2j;1....(j).....k
-> 1 - quadrierte multiple Korrelation zwischen Xj und allen anderen Präds
Wie sollte der Toleranzfaktor für möglichst wenig Multikollinearität sein?
nahe 1
Formel Varianzinflationsfaktor
VIFj = 1/TOLj
Wie sollte der Varianzinflationsfaktor sein?
Nahe 1 und kleiner als 5.
Was ist los, wenn der VIFj höher als 5 ist?
hohe Multikollinearität
Bei welchem TOLj habe ich exakte Multikollinearität?
0 (wenn R^2 1 ist)
Wie kann man Multikollinearität reduzieren? (4 Punkte)
- Zentrierung
- Eliminierung von Präds
- Aggregation (Zusammenfassung) von Präds, die das gleiche Konstrukt erfassen -> zb mehrere Items eines Fragebogens zu einer Variable zusammenfassen oder Mittelwerte bilden
- Faktorenanalytische Reduktion (statt vieler korrelierender Variablen wenige unkorrelierte Faktoren berücksichtigen)
Ab wann ist Korrel zwischen den Prädiktorvariablen (Multikollinearität) wirklich problematisch?
Nur, wenn sie sehr hoch ist (ab ca .8). TOLj wäre dann bei .2. In einem solchen Fall ist ein Präd evtl auch verzichtbar.
Kennwerte für Ausreißer/ extreme Werte, die sich auf Prädiktoren beziehen (zur Frage, ob ein Wert extrem ist oder nicht)
Mahalanobis-Distanz, Hebelwert, zentrierter Hebelwert
Kennwerte für Ausreißer/ extreme Werte, die sich auf die AV beziehen?
verschiedene Arten von Residuen
Welche Residuen sind am genausten für die Schätzung eines Ausreißers auf der AV?
studentisierte, ausgeschlossene Residuen
Müssen die Kennwerte der Mahalanobis-Distanz, Hebelwert, versch Residuen groß oder klein sein, um Ausreißer festzustellen?
größerer Wert indiziert Extremheit
Welche Kennwerte (Differenzen) beziehen sich auf den Einfluss von einzelnen Datenpunkten?
-> jeweils ein Datenpunkt pro Regkoeff (bei 1)) und Person/Fall
DfBETA(S) (Einfluss eines einzelnen Werts auf Schätzung d. Regkoeffs)
DfFIT(S) (Einfluss eines einzelnen Werts auf Schätzung d. vorhergesagten Werte)
Cooks Distanz (")
Unterschied Ausreißer & einflussreiche Datenpunkte?
einflussreiche Datenpunkte sind wahrscheinlich Ausreißer, die die Schätzung der Regressionsparameter stark beeinflussen (diese verändert sich stark, wenn dieser Datenpunkt aus den Daten entfernt wird)
Was sind Ausreißer? (3 Punkte)
1) Werte, die sich stark von den restlichen unterscheiden
2) Können auf AV oder UV auftreten
3) Können (aber müssen nicht) die Parameterschätzung verzerren