Cartes mémoires PHB Statistik Klausurvorbereitung (Seite 2 von 3)

Cartes-fiches	100
Utilisateurs	11
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	06.02.2019 / 12.02.2024
Lien de web	https://card2brain.ch/cards/20190206_phb_statistik_klausurvorbereitung?max=40&offset=40
Intégrer	<iframe src="https://card2brain.ch/box/20190206_phb_statistik_klausurvorbereitung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wo liegt der Unterschied zwischen der Partailkorrelation und Semipartialkorrelation?

Partialkorrelation: Korrelation zweier Variablen, die vom Effekt anderer Variablen bereinigt wurden.

Semipartialkorrelation: die Korrelation zweier Variablen, von denen eine vom Effekt EINER anderen Variablen bereinigt wurden.

Wie lässt sich der multiple Determinationskoeffizient R²verstehen?

Der multiple Determinationskoeffizient R²lässt sich als Summe der quadrierten Semipartialkorrelationen zunehmend höherer Ordnung verstehen

Welche Verfahren zur Auswahl von unabhängigen Variaben gibt es?

Theoretische Auswahl von UVs: z.B. Theoretische Relevanz, Kausale Priorität, Pragmatische Gesichtspunkte wie Kostengünstigkeit

Datengesteuerte Auswahl von UVs: Sinnvoll, wenn keine theoretischen Überlegungen vorliegen (zB. Vorwärtsseklektion)

Beschreibe kurz den Ablauf der Vorwärtsselektion

Festlegung des Signifikanzniveaus sowie Festlegung aller potentiellen UVs
Aufnahme der UV, die am höchsten (und signifikant) mit der AV korreliert ist
Aufnahme der UV, die gegenüber der ersten UV (signifikant) am meisten zusätzliche Varianz aufklärt
Aufnahme der UV, die gegenüber der ersten und zweiten UV (signifikant) am meisten zusätzliche Varianz aufklärt.... und so weiter
Abbruch, wenn keine der verbliebenen UVs einen signifikanten zusätzlichen Erklärungsbeitrag leistet

Wie kann die Prognosegüte eines Tests bestimmt werden (wenn z.B. eine neue Stichproebenziehung zu aufwändig ist)?

"2-fold" Kreuzvalidierung

"Leave-one-out" Kreuzvalidierung

Beschreibe den Ablauf der "2-fold" Kreuzvalidierung

"2-fold" Kreuzvalidierung

Teilung des Datensatzes in 2 Hälften (Trainings- vs. Test-Substichprobe)
Bestimmung des optimalen Modells inkl. Regressionsgewichte
Prognose der y-Werte für alle Personen der Test-Substichproebe anhand der Regressionsgleichung aus der Trainings-Substichprobe
Korrelation der prognostizierten mit den beobachteten Werten in der Test-Substichproebe
Vergleich mit der multiplen Korrelation aus der Trainingssubstichprobe (Bei starker Abweichung keine gute Prognose -> keine Verallgemeinerung auf zukünftige Fälle)

Beschreibe den Ablauf der "Leave-one-out" Kreuzvalidierung

"Leave-one-out" Kreuzvalidierung

Als Trainings-Substichprobe gilt eine Stichprobe, aus der eine einzige Person entfernt wurde (n–1)
Bestimmung der Regressionsparameter an der Trainings- Substichprobe und Prognose des y-Werts für die „entfernte“ Person
Durchführung dieses Verfahrens für alle n Personen
Maße der Prognosegüte: Prognosefehler (PRESS, Summe der quadrierten Abweichungen zwischen vorhergesagtem und beobachtetem Wert), Kreuzvalidierungsfehler (CVE, Mittelwert der quadrierten Abweichungen zwischen vorhergesagtem und beobachtetem Wert)
Vergleich verschiedener Modelle anhand der Prognosegüte

Was ist Suppression?

Suppression liegt vor, wenn die Nützlichkeit einer UV größer ist als ihre quadrierte Korrelation mit der AV.

Durch Suppression (Kontrolle von Störvariablen) kann die Nützlichkeit einer UV für die Vorhersage der Av verbessert werden.

Nenne die Merkmale klassischer Suppression.

Bei Bivariaten Korrelationen sind X1 und X2 signifikant korreliert, X1 und Y dagegen nicht.

Bei Multipler Regression ist der multiple Determinationskoeffizient größer als die quadrierte Korrelation von X1 und Y.

Nenne die zwei am häufigsten eingesetzte Codierstrategien und beschreibe wann es sinnvoll ist, welche Strategie anzuwenden!

Dummy-Codierung: z.B. sinnvoll, wenn sich durch das Versuchsdesign klar eine Referenzgruppe festlegen lässt (z.B. Kontrollgruppe)

Effektcodierung: z.B. sinnvoll, wenn Abweichungen vom Gesamtmittelwert von Interesse sind (z.B. Vergleich verschiedener Altersgrupen, Treatments)

In welchen Fällen würde man gewichtete bzw. ungewichtete Effektcodierung anwenden?

Ungewichtete Effektcodierung: wenn Unterschiede in Teilstichproeben auf unsystematische Ausfälle zurückgeführt werden können

Gewichtete Effektcodierung: wenn Unterschiede in Katergoriehäufigkeiten inhaltlich relevant sind (z.B. repräsentativ für Populationen)

Beschreibe, wie die Dummy-Codierung funktioniert.

Eine der c Kategorien der UV wird als Referenzkategorie ausgewählt
Die Referenzkategorie erhält auf allen Codiervariablen den Wert 0
Allen anderen Kategorien der UV werden derart Werte auf den Codiervariablen zugewiesen, dass
jede Kategorie nur auf einer einzigen Codiervariablen den Wert 1 aufweist, auf allen anderen den Wert 0
jede Codiervariable nur für eine einzige Kategorie den Wert 1 aufweist, für alle anderen den Wert 0

Beschreibe das Vorgehen in der Ungewichteten Effektcodierung

Eine der c Kategorien der UV wird als Referenzkategorie ausgewählt
Die Referenzkategorie erhält auf allen Codiervariablen den Wert -1
Allen anderen Kategorien der UV werden derart Werte auf den Codiervariablen zugewiesen, dass
jede Kategorie nur auf einer einzigen Codiervariablen den Wert 1 aufweist, auf allen anderen den Wert 0
jede Codiervariable nur für eine einzige Kategorie den Wert 1 und für die Referenzkategorie den Wert -1 aufweist, für alle anderen den Wert 0

Warum ist die Erklärungskraft von Produktvariablen eher klein?

Die Erklärungskraft von Produktvariablen ist in empirischen Studien häufig eher klein (ca 3%- 8%). Das liegt auch am Einfluss des Messfehlers: Die Produktvariablen sind messfehlerbehafteter als die UVs, was u.a. zu einer Verringerung der Teststärke führt (d.h. in der Population vorhandene Moderatoreffekte werden nicht entdeckt)

Warum wird die moderierte Regressionsanalyse verwendet?

In bisherigen Regressionsanalysen wurde angenommen, dass UVs additiv verknüpft sind (= das Regressionsgewicht hängt nicht von den Ausprägungen anderer UVs ab) --> DIese Annahme ist zu einfach bzw. psychologisch unplausibel

Um zu berücksichtigen, dass der Effekt einer UV auf eine AV von der Ausprägung einer weiteren UV abhängen kann, wird eine moderierte Regressionsanalyse verwendet

Wozu wendet man die polynomische Regression an?

Ein nicht-linearer Zusammenhang lässt sich im Rahmen der multiplen Regressionsanalyse durch die Definition und den Einbezug von Polynomen höherer Ordnung umsetzen

Was bezeichnet die Regressionsdiagnostik? Nenne alle Unterpunkte.

Prüfung der Annahmen der Regressionsanalyse

1.1 Korrekte Spezifikation des Modells
1.2 Messfehlerfreiheit der UVs
1.3 Homoskedasziität
1.4 Unabhängigkeit der Residuen
1.5 Normalverteilung der Residuen

& Identifikation von Problematischen Datensituationen

2.1 Ausreißer und einflussreiche Datenpunkte
2.2 Multikollinearität
2.3 Fehlende Werte

Beschreibe, was wichtig an der korrekten Spezifukation des Models ist und nenne die Konsequenzen, wenn diese Annahme verletzt ist.

Merkmale:

Keine relevanten Variablen ausgelassen („underfitting")
Keine irrelevanten Variablen aufgenommen („overfitting“)
gute theoretische Überlegungen nötig, bereits im Vorfeld mögliche konfundierende Variablen identifizieren und berücksichtigen

Konsequenzen bei Verletzung:

Verzerrte Schätzung der Regressionsgewichte
Erhöhter Prognosefehler
Verringerte Teststärke
Falsche Schlussfolgerungen

Was ist die LOWESS-ANpassungslinie?

Die Lowess-Anpassungslinie ist ein Glättungsverfahren, welches kurvlineare Verfahren aufdeckt

Wie kann man Messfehler aufdecken, wie geht man mit ihnen umgehen und was sind die Konsequenzen von Messfehlern in UVs?

Aufdeckung und Umgang mit Messfehlern:

Bestimmung der Reliabilität der UVs
Modelle mit latenten Variablen verwenden

Konsequenzen von Messfehlern in den UVs:

Unterschätzung des wahren Regressionsgewichts (in einfacher Regression)
Verzerrte Schätzung der Regressionsgewichte (in multipler Regression)

Definiere Homoskedaszitität, beschreibe wie man sie prüft, welche Konsequezen bei Verletzung auftreten und wie man damit umgeht.

Homoskedastizität: Varianz der Residuen in der Population hängt nicht von den Ausprägungen der UV‘s ab

Prüfung: Breusch-Pagan-Test, Residuenplots überprüfen, Studentisiertes ausgeschlossenes Residuum

Konsequenzen bei Verletzung: Trotzdem erwartungstreue Schätzung der Parameter, Verzerrte Schätzung der Standardfehler

Lösung: Huber-White Standardfehler, Weighted Least Squares

Wann ist die Annahme der Unabhängigkeit von Residuen verletzt? Nenne Konsequenzen bei Verletzung, Prüfung sowie Lösungen.

Annahme ist verletzt: bei geschachtelter Datenstruktur, Einzellfallanalysen, mehrstufigen Auswahlverfahren, serialer Abhängigkeit

Konsequenzen: Trotzdem erwartungstreue Schätzung der Parameter, Standardfehler werden unterschätzt, Ökologische Fehlschlüsse

Prüfung: Intraklassenkorrelation, Durbin-Watson-Test

Lösung: Hierarchisch lineare Modelle, Zeitreihenanalytische Verfahren, Klumpen-ID

Beschreibe welche Konsequenzen bei nicht-Normalverteilung der Resiudzen auftreten, wie man die Verletzung der Annahme prüft und welche Lösungen es gibt.

Konsequenzen bei Verletzung: Unverzerrte Schätzung der Regressionsgewichte, Verzerrte Schätzung der Standardfehler in kleinen Stchproben

Prüfung: Shapiro-Wilk-Test, heuristische Verfahren (Histogramm studentisierter Residuen, P-P-Plot, Q-Q-Plot)

Lösung: Logarithmische Transformation, Poisson-Regression

Was sind Ausreißer und wie identifiziert man diese auf UV und AV?

Ausreißer sind Werte die sich stark von restlichen Werten unterscheiden und somit zu Verzerrungen führen können.

Identifikation von Ausreißern auf der UV: Mahalanobis-Distanz, Zentrierte Hebelwerte

Identifikation von Ausreißern auf der AV: Verteilung der Resiudn betrachten, Absolute werte >3 sollten inspiziert werden, Bonferroni-Korrektur

Was sind einflussreiche Datenpunkte und wie identifiziert msn diese?

Einflussreiche Datenpunkte sind Wertekombinationen einer Person, deren Entfernung aus dem Datensatz die Regressionsparameter stark verändert.

Identifikation: Änderung der Regressionskoeffizienten (DfBETA, DfBETAS), Anderung der vorhergesagten Werte (DfIT, DfITS), Cooks Distanz

Definiere Multikollinearität und nenne die Konsequenzen bei Verletzung sowie Prüfungs- und Lösungsoptionen.

Multikollinearität = Hohe multiple Korrelation einer UV mit anderen UV‘s

Prüfung: Toleranzfaktor (TOL <.10 problematisch), Varianzinflations-Faktor (VIF >10 problematisch)

Lösung: Zentrierung, Eliminierung von UVs, Aggregation, Faktorenanalytische Reduktion

Nenne die Konsequenzen und Lösungsansätze bei fehlenden Werten

Konsequenzen: Wenn Werte nicht MCAR fehlen, führt ein Ausschluss zu einer verzerrten Schätzung von Regressionskoeffizienten und Standardfehlern

Lösung: Schätzverfahren benutzen, die alle verfügbaren Werte verwenden und das Fehlen erklärender Variablen mitberücksichtigen, K-Q-Methode mit multipler Imputation, Full Information Maximum Likelihood-Methode

Wann verwendet man hierarchisch lineare Modelle?

Die Annahme der Unabhängigkeit von Messwerten ist bei hierarchisch linearen Modellen verletzt (die Messwerte sind nicht zufällig aus der Population gezogen, sondern hängen voneinander ab = hierarchisch geschachtelte Datenstrukturen)

Was sind Level1 und Level2 Einheiten?

Ebenen in hierarchisch linearen Modellen

Level1: kleinste Einheit, einzelner Messwert (z.B. Schulklassen)

Level2: Kategoriale EInheiten, in denen einzelne Messwerte geschachtelt sind (z.B. Schüler)

Nenne Risiken bei hierarchischen Datenstrukturen

Risiko falscher Schlüsse bei der Interpretation von Zusammenhangs- und Beeinflussungsstrukturen

Risiko falscher Schlüsse bei der inferenzstatistischen Absicherung von Regressionsgewichten

Was versteht man unter dem Simpson-Paradox?

Innerhalb der Level-2-Einheiten (z.B. Klassen) kann sich der Zusammenhang zwischen zwei Variablen ganz anders (z.B. mit anderem Vorzeichen) darstellen als über alle Level-2- Einheiten hinweg (d.h. ohne Berücksichtigung der Schachtelung)

Dabei scheint es, dass die Bewertung verschiedener Gruppen unterschiedlich ausfällt, je nachdem ob man die Ergebnisse der Gruppen kombiniert oder nicht.

Was versteht man unter dem ökologischen Fehlschluss?

Einen ökologischen Fehlschluss begeht man, wenn man einen Zusammenhang oder Effekt, der auf der Ebene von Level-2-Einheiten gefunden wurde, fälschlicherweise auf der Ebene von Level-1- Einheiten interpretiert

= Vertauschen von Levels

Was versteht man unter der Intraklassenkorrelation und wie wird sie berechnet?

Anhand der Intraklassen-Korrelation („intraclass correlation“, ICC) kann der Anteil der Varianz zwischen Level-2-Einheiten an der Gesamtvarianz einer Variable bestimmt werden

Hierzu wird die Gesamtvarianz aller Messwerte in zwei Teile zerlegt: einen Anteil, der auf Unterschiede zwischen Level-2- Einheiten zurückgeht und einen Anteil, der auf Unterschiede zwischen Level-1-Einheiten zurückgeht

Die ICC variiert zwischen 0 und 1 und drückt aus, wie ähnlich sich zwei Werte sind, die aus der gleichen Level-2-Einheit stammen

Um welches Modell handelt es sich hier und was sind seine Eigenschaften?

Intercept-Only-Modell ~ 3 Aspekte

("leeres Modell", beeinhaltet keine UVs
dient lediglich dazu, die Messwerte der AV zu zerlegen, um die Anteile der Varianz auf Ebene 1 und 2 zu bestimmen

Um welches Modell handelt es sich und was sind seine Eigenschaften?

Random-Intercept-Modell (RIM) ~ 4 Aspekte

beinhaltet UVs auf Ebene 1
erlaubt auf Ebene 2 Variation in den Achsenabschnitten, aber nicht in den Regressionsgewichten

Um welches Modell handelt es sich und was sind seine Eigenschaften?

Random-Slope-Modell (RSM) ~ 5 Aspekte

erlaubt Variation in den Regressionsgewichten
& Kovariation zwischen den Achsenabschnitten und Regressionsgewichten

Nenne die Unterschiede zwischen Modellen mit Level1-UVs und Level2-UVs

Modelle mit Level-1-UVs: berücksichtigen nur UVs auf der "unteren" Ebene/ Level-1 (z.B. Stimmung an einem Tag)

Modelle mit Level-2-UVs: UVs auf Ebene 2 (z.B. Persönlichkeit) können ggf. erklären, warum die Achsenabschnitte und Regressionsgewichte zwischen den Level-2-Einheiten varrieren (Varianz der Level-2 Residuen kann verringert werden)

Um welches Modell handelt es sich und was sind seine EIgenschaften?

Modell mit festem Level-1- und Level-2 Effekt ~ 6 Aspekte

In das Random-Slopes-Modell wird eine UV auf Level 2 eingefügt (Z), um die Unterschiede in den personenspezifischen Achsenabschnitten zu erklären -> Prüfung, ob z den Effekr von x auf y moderiert

Um welches Modell handelt es sich und was sind seine Eigenschaften?

Modell mit Cross-Level-Interaktionseffekt (CLI) ~ 7 Aspekte

Die UV auf Level-2 (Z) wird zusätzlich als Prädiktor der personenspezifischen Regressionsgewichte eingefügt -> Prüfung, ob Z den Effekt von X auf Y moderiert

Was ist die Maximum-Likelihood-Methode und wie funktioniert sie?

= iteratives (schrittweises) Verfahren zur Schätzung der Parameter

Auswahl der Parameter für plausible Startwerte, Berechnung der Wahrscheinlichkeit, bei Geltung dieser Werte die beobachteten Daten zu erhalten ("Likelihood-Funktion")
Parameter schrittweise verändern, dass Likelihood-Funktion immer größer wird
Das Verfahren "konvergiert" (stimmt überein), wenn die Verbesserung einen kritischen Wert unterschreitet (d.h. die Parameter gefunden wurden, bei deren Geltung die Wahrscheinlichkeit der beobachteten Daten maximal ist)

2 Ansätze:

Full-Maximum-Likelihood-FUnktion (FML, simultane Schätzung des festen und zufälligen Teils) &
Restricted-Maximum-Funktion (RML, zuerst Schätzung des zufälligen Teils, dann des festen Teils)

PHB Statistik Klausurvorbereitung

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google