Methoden
Methoden der Statistik oder so
Methoden der Statistik oder so
Set of flashcards Details
| Flashcards | 145 |
|---|---|
| Language | Deutsch |
| Category | Psychology |
| Level | University |
| Created / Updated | 10.09.2025 / 10.09.2025 |
| Weblink |
https://card2brain.ch/box/20250910_methoden
|
| Embed |
<iframe src="https://card2brain.ch/box/20250910_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Create or copy sets of flashcards
With an upgrade you can create or copy an unlimited number of sets and use many more additional features.
Log in to see all the cards.
Ursache fehlender Daten MAR (Missing at Random)
fehlen eines Wertes bei einer Variable hängt mit der Ausprägung auf anderen beobachteten Variablen zusammen, wird aber nicht von der Ausprägung auf der Variablen selbst beeinflusst --> Beobachtung fehlt zufällig
nach Kontrolle der beobachteten Variable hängt das Auftreten fehlender Werte nicht mehr von der Ausprägung der Variablen selbst ab
Zb EInkommen vom Alter
Ursache fehlender Daten MNAR (Missing Not at Random)
Auch nach Kontrolle der beobachteten Variablen hängt das Auftreten fehlender Werte von der Ausprägung auf der Variablen selbst ab --> Ausfallmechanismus muss direkt modelliert werden
Ausfall von Y hängt von Y selbst ab
Einbeziehen von Hilfsvariablen
Klassifikation des Ausfallprozesses wird relativ zu dem betrachteten Datensatz vorgenommen
explizit Items berücksichtigen, die gute Prädiktoren für Variablen mit potenziell fehlenden Werten sind
Beispiel: R:Indikatorvariable Response Y; X:Alter; Y:Einkommen; Z:Zufallsvariable; I:weitere Einflüsse (wie zB wie wahrscheinlich ist es dass sie ihr Einkommen nicht angeben wenn es besonders hoch/niedrig ist)
-->dann kein Einfluss mehr von Y auf R weil I die Erklärung ist
Einbeziheung von Hilfsvariablen I kann MNAR zu MAR verändern
Imputationsverfahren (ersetzen fehlender Werte)
klassische Verfahren (ad-hoc Lösungen): fallweiser Ausschluss; Paarweiser AUsschluss; Gewichtung
Imputationdsbasierte Verfahren: Mean Substitution; Matching; Stochastic Regression Imputation; multiple Imputation
Modellbasierte Verfahren: EM-Algorithmus; FIML-Methode (gleichzeitig Behandlung Ausfallprozess und Modellierung der Daten)
Single Imputation- Klassische Verfahren- Fallweiser Ausschluss
nur die Personen werden in Analyse einbezogen, die für alle Variablen gültige Werte besitzen --> alle Fälle aus der Analyse ausgeschlossen, die mindestens einen fehlenden Wert auf einer der benötigten Variablen haben
Voreinstellung in meisten Softwarepaketen
Nachteil: liegt nicht MCAR vor --> Bias in Parameterschätzung; Verlust an Power durch SP kleiner
Single Imputation- klassische Verfahren- paarweise Ausschluss
alle verfügbaren Fälle verwendet: unterschiedliche TeilSP für verschieden Berechnungen
zb bei Korrelationsmatrix wenn die hier relevanten Items beantwortet sind, nehmen wir die Daten auch her
Nachteile: Verzerrte Schätzung wenn nicht MCAR; Korrelationsmatrix kann nicht positiv definiert sein (kann nicht invertiert werden--> weiterreichen mit SEM,PCA etc geht nicht); Interpretation schwierig weil Bestimmung SP nicht möglich
Single Imputation- klassische Verfahren - Gewichtung
häufig in Surveyforschung verwendet
Wenn unit Nonresponse
Ziel: Verteilung der Population mit Hilfe von personenspezifischen Gewichten in der SP möglichst präzise nachbilden
Nachteile: fehlende Werte nicht MCAR --> verzerrte Parameterschätzung, Berechnung von Standardfehlern komplex
Imputationsbasierte Verfahen im Überblick
jeder fehlende Wert soll durch einen oder mehrere möglichst plausible Werte ersetzt werden
++ effizienter; präziser als SI; vollständiger Datensatz
Imputationsbasierte Verfahren - Mittelwertersetzung (Mean Imputation)
fehlende Werte werden durch den MW der beobachteten Variable ersetzt
Nachteile: erhebliche Varianzreduktion; Verzerrte Parameterschätzung
bei MCAR also komplett zufälligem Fehlen keine Verzerrung des MW; ABER bei MAR schon
Imputationsbasierte Verfahren - deterministische (Multiplt) Regression Imputation
fehlende Werte auf einer Variablen Y werden mit Hilfe einer multiplen Regression ersetzt
Ziel: fehlende Werte auf einer Variable Y sollen mit Hilfe der Info aus anderen beobachteten Variablen ersetzt werden
vorhandene Werte hernehmen für Regressionsberechnung; dann auffüllen
Nachteile: verzerrte Schätzungen der Varianzen und Kovarianzen (künstlich perfekte Werte); Überschötzung des Zusammenhangs zwischen Regression und den Variablen (Y und X Zusammenhang); Datenbeispiel MAR Deterministic Regression Imputation (keine optimale Populationsschätzungen)
Imputationsbasierte Verfahren - stochastic Imputation
zu den vorhergesagten Werten der Regressionsgleichung wird ein zufälliger Fehler hinzugefügt
zwei Vorgehen zur Bestimmung des Fehlers:
- Ziehung aus der empirischen Verteilung der Regressionsresiduen
- Anhand einer geschätzten (Normal-)Verteilung der Residuen simuliert
--> bessere Populationsschätzung
Multiple Imputation Schitte
1. für jeden fehlenden Wert werden unter Einbezug der im Datensatz vorhandenen Information mehrere Ersetzungen vorgenommen (berücksichtigt Unsicherheit über "wahre" fehlende Werte)
2. Analyse: jeder Datensatz wird mit Standardverfahren analysiert (Regression, t-Test etc)
3. Imputation: Ergebnisse der getrennt durchgeführten Analysen werden zusammengefasst
-->Integration aller Analysemodelle in ein Imputationsmodell
Joint Modelling
gemeinsame multivariate Normalverteilung (NORM)
aus dieser Normalverteilung simultan für alle fehlenden Werte gemeinsam gezogen --> gemeinsame Verteilung der Variablen (Teta)
Full conditional Modelling
Folge von bedingten Modellen (MICE) --> höhere Flexibilität
nacheinander für jede Variable mit fehlenden Werten ein separates Modell geschätzt
besonders gut für gemischte Datentypen (metrisch, ordinal, nominal)
--> keine gemeinsame Verteilung, sondern für jede Variable separat imputiert
Statistische Inferenz bei Multipler Imputation
MI erzeugt mehrere vollständige Datensätze, in denen fehlende Werte durch plausible Werte ersetzt werden
für jeden Datensatz wird interessierender Parameter geschätzt UND Varianz dieser Schätzung
Rubin: erlaubt Konstruktion von Konfidenzintervallen (nach Normalverteilung oder t-Verteilung mit v Freiheitsgraden) und Teststatistiken t (mit zugehörigen p-Werten) --> nimmt Normalverteilung an
Inferenz für Korrealtionen und Varianzen mit Rubin-Formel problematisch (oft keine Normalverteilung)
--> Transformation der Statistik, so dass näherungsweise Normalverteilung gilt: zB Fishers z-Transformation für Korrelationen oder Log-Transformation für Varianzen
nach der Analyse der transformierten Werte wird die Rücktransformation zur Interpreation durchgeführt
Definition Population
(Grundgesamtheit)
Gesamtmenge aller Beobachtungseinheiten (N), über die Aussagen getroffen werden sollen.
Werden alle Objekte einer Population untersucht, so spricht man von einer Vollerhebung
Definition Stichprobe
Eine Teilnenhe der Pooulation wird als Stichprobe (n aus N) bezeichnet.
Wird nur ein Teil der Population untersucht so handelt es sich um eine Stichprobenerhebung
Gründe eine SP zu ziehen
Population ist unendlich groß (bsp Verbreitung stereotype in Tageszeitungen)
Population nur teilweise bekannt (bsp Gesundheitszustand medikamentenabhängiger in Schweiz)
Art der Untersuchung würde Population zu stark beeinträchtigen (Crashtests der gesamten Jahresproduktion eines Automobilherstellers)
Untersuchung der gesamten Population zu aufwändig (Umfrage zu musikgeschmack Jugendliche EU)
Repräsentationalität
Verteilung in SP sollte sich im besten Fall nicht von Vertrilung in Population unterscheiden, um möglichst gültige Aussagen machen zu können
Arten von Repräsentationalität
Merkmalsspezifisch repräsentativ: SP entspricht Population in den für Untersuchung relevanten Merkmalen
Global repräsentativ: SP in fast allen Merkmalen wie Population
Coverage
Die angestrebte Grundgesamtheit umfasst alle Elemente, über die Aussagen getroffen werden sollen (alle dies gibt)
Auswahlgesamtheit umfasst alle Elemente, die eine prinzipielle Chance haben, in eine SP zu gelangen (alle registrierten)
Inferenz-Population wird mit einem Zuehungsverfahren tatsächlich erreicht (die die mitmachen)
Undercoverage
Elemente der angestrebten Grundgesamtheit sind nicht in der Auswahlgesamtheit enthalten
Overcoverage
Bestimmte Elemente haben höhere Wahrscheinlichkeit in SP zu kommen oder gehören nicht zur angestrebten Grundgesamtheit (bsp Wahl: die die nach Ziehung nciht mehr wahlberechtigt sind)
Einfache Zufallsstichprobe
Alle Elemente aus Population haben gleiche Ziehubgswahrscheinlichkeit
Populationskennwerte/ Populationsparameter
Anteil (relative Häufigkeit) = pi
Arithmetischer Mittelwert = my
Standardabweichung (Streuung) = Sigma
Varianz = Sigma Quadrat
Gütekriterien - Erwartungstreue
Erwartungswert eines Schätzers entspricht genau dem wahren Parameterwert der zugrunde liegenden Population
Schätzer ist erwartungsgetreu wenn der durchschnittliche Wert des Schätzers über unendlich viele SP gleich dem wahren Populationswert ist
Gütekriterien - Konsistenz
Bedeutet, dass Schätzer mit wachsendem SP Umfang immer näher am wahren Parameterwert liegt
Gütekriterien - Effizienz
maß dafür wie gering die Varianz eines Schätzers im Vgl zur Varianz anderer erwartungstreuer Sxhätzer für denselben Parameter ist
Effizienz charakterisiert Genauigkeit der Parameterschätzung
(Effizient wenn Varianz also Streuung klein)
Gütekriterien - Suffizienz
Schätzwert der alle Infos die die SP über einen bestimmten Populationsparameter enthält, vollständig zusammenfasst -> keine weiteren datenmerkmale nötig
Schätzmethoden (Punktschätzer)
Kleinste Quadrate: Summe der Abweichungsquadrate der beobachteten und verhergesagten Y-Werte soll minimal sein
Maximum Likelihood: gibt an in welcher Parameterausprägung die vorliegenden Daten am wahrscheinlichsten wäre
-
- 1 / 145
-