Statitik Grundlegende Begriffe

Grundlegende Begriffe erläutern Hartwig Vester

Grundlegende Begriffe erläutern Hartwig Vester


Set of flashcards Details

Flashcards 148
Language Deutsch
Category Social
Level University
Created / Updated 08.09.2019 / 22.08.2021
Weblink
https://card2brain.ch/box/20190908_statitik_grundlegende_begriffe
Embed
<iframe src="https://card2brain.ch/box/20190908_statitik_grundlegende_begriffe/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Die Faktorenanalyse

der Faktorenanalyse ein spezifisches Messmodell – das sogenannte Modell mehrerer gemeinsamer Faktoren oder common factor model –, mit welchem die Zusammenhänge zwischen mehreren direkt beobachtbaren (manifesten) Items oder Variablen dahingehend systematisiert werden können, dass von diesen auf die Existenz eines oder mehrerer nicht direkt beobachtbarer (latenter) Faktoren geschlossen werden kann.

Die Faktorenanalyse enthält kein Fehlermodell

Die Arbeitslosen von Marienthal“ untersucht? Was war die zentrale uV in dieser Studie?

 In der Studie wurden die Auswirkungen langandauernder Arbeitslosigkeit untersucht.

Die zentrale uV war die Arbeitslosigkeit.

Deterministische Hypothese

Probabilistische Hypothesen

Deterministische Hypothesen = Strikter Zusammenhang

Probabilistische Hypothese     = Wahrscheinlichkeitsaussage

 

DAs analytische und das theoretische Primat

Wippler und Lindenberg (1987) stellen somit fest, dass der „analytische Primat“ der Sozialforschung auf der kollektiven Ebene liegt. Das Explanandum ist immer ein Makro- Phänomen.

 

Für das Individuum, für den menschlichen Akteur, interessiert sich die Sozialforschung nicht per se, aber gesellschaftliche Phänomene (auf der Makro-Ebene) müssen über die Mikro- Ebene tiefenerklärt werden, weil es auf der Makro-Ebene, wie wir gleichsehen werden, keine befriedigenden Erklärungen gibt (vgl. dazu auch Esser 1999a, S. 14–15). Damit ist der theoretische Primat immer auf der individuellen Ebene zu suchen, d. h., wir suchen für die Erklärung ein mikrofundiertes Modell.

 

Cronbachs Alpha

Cronbachs alpha ist ein Maß für die interne Konsistenz einer Skala,

welches auf den durchschnittlichen Interkorrelationen der für eine Skala in Frage kommenden Items oder Variablen basiert und Werte im Bereich von 0-1 annehmen kann.

Cronbach`s Alpha

Cronbachs alpha ist ein Maß für die interne Konsistenz einer Skala, welches auf den durchschnittlichen Interkorrelationen der für eine Skala in Frage kommenden Items oder Variablen basiert und Werte im Bereich von 0-1 annehmen kann.

Crisp set QCA

Bei der crisp-set QCA sind nur dichotome Bedingungen und ein dichotomes Outcome zulässig, das heißt, alle Variablen bzw. Bedingungen sowie das Outcome müssen als 1 oder 0 kodiert bzw. kalibriert sein.

Crisp set QCA

Bei der crisp-set QCA sind nur dichotome Bedingungen und ein dichotomes Outcome zulässig, das heißt, alle Variablen bzw. Bedingungen sowie das Outcome müssen als 1 oder 0 kodiert bzw. kalibriert sein.

confirmation bias

Der Confirmation Bias (auch Bestätigungsfehler genannt) ist unsere meist unbewusste Tendenz, auf die Informationen zu schauen, die mit der eigenen Sichtweise übereinstimmen. Wir fokussieren uns also selektiv nur auf das, was wir vorher schon geglaubt haben.

Einzelinformationen werden so kombiniert, dass Ursache und Wirkung eindeutig mit einander verbunden sind

COMPLEX SOLUTION

complex solution für die logische Minimierung nur empirisch beobachtete Wahrheitstabellenreihen, speist also in die Analyse keinerlei (theoretische) Annahmen über die logischen Rudimente mit ein.

Comparative merit

Comparative merit“ weisen Fallstudien auf, wenn der spezielle Fall unter
enger Berücksichtigung wissenschaftlicher Theorien oder Konzepte analysiert wurde – und damit
eine generalisierende Dimension erhält. Hinsichtlich der Art der Theorieorientierung können drei
Idealtypen unterschieden werden, die im Folgenden vorgestellt werden: theorie-generierende,
theorie-testende und diszipliniert-konfigurative Fallstudien (siehe Muno 2016,

Boolsche Algebra

Operatoren und boolesche Algebra

 

–             + steht für das logische ODER

–             * steht für das logische UND

–                steht für eine hinreichende Bedingung

–             steht für eine notwendige Bedingung

–             ~ steht für das Nicht-Vorhandensein einer Bedingung bzw. die Negation einer Menge

BLUE

Ziel der linearen Regressionsanalyse ist es, die Regressionsparameter unverzerrt und so effizient
wie möglich zu schätzen, also die wahren Parameter in der Grundgesamtheit möglichst genau
und mit der geringsten möglichen Varianz aller möglichen Schätzer zu ermitteln. Dies wird in der
Literatur auch als Best Linear Unbiased Estimator (BLUE) bezeichne

Bestimmtheitsmaße     Nagelkerke

                                    Mc Fadden

                                    Snell

 

Im Falle einer linearen Regression beschreibt das Bestimmtheitsmaß den erklärten Anteil der Variabilität (Varianz) einer abhängigen Variablen Y durch ein statistisches Modell. Bei einem nominalen oder ordinalen Skalenniveau von Y (z. B. bei Klassifikationen) existiert jedoch kein Äquivalent, da man die Varianz und damit ein R 2 nicht berechnen kann.

Das Pseudo-Bestimmtheitsmaß

Pseudo-Bestimmtheitsmaße sind so konstruiert, dass sie den verschiedenen Interpretationen (z. B. erklärte Varianz, Verbesserung gegenüber dem Nullmodell oder als Quadrat der Korrelation) des Bestimmtheitsmaßes genügen. Sie sind dem R 2 in der Hinsicht ähnlich, dass dessen Werte ebenfalls im Intervall von 0 und 1 liegen und ein höherer Wert einer besseren Anpassung des Modells an die Daten entspricht.

Likelihood-basierte Maße

Maddalas / Cox & Snells Pseudo-R2

R M a d d a l a 2 = 1 − ( L 0 L 1 ) 2 / n ,

mit

L 0 : Nullmodell,

L 1 : Modell mit erklärenden Variablen

R M a d d a l a 2 ∈ [ 0 , 1 )

 

Nagelkerkes / Cragg & Uhlers Pseudo-R2

R N a g e l k e r k e 2 = 1 − ( L 0 L 1 ) 2 / n 1 − L 0 2 / n ,

mit

L 0 : Nullmodell,

L 1 : Modell mit erklärenden Variablen

R N a g e l k e r k e 2 ∈ [ 0 , 1 ]

Nagelkerkes Pseudo-R2 erweitert Maddalas Pseudo-R2, sodass durch eine Reskalierung ein möglicher Wert von 1 erreicht werden kann, wenn das vollständige Modell eine perfekte Vorhersage mit einer Wahrscheinlichkeit von 1 trifft.

Nagelkerke gab auch allgemeine Bedingungen für ein Pseudo-Bestimmtheitsmaß an:

Bestimmtheitsmaß R2

R2 an. Es gibt an, welcher prozentuale Anteil der Gesamtstreuung von Y durch die Regressionsgleichung erklärt wird. Hätte man keine Informationen über den Zusammenhang von y und x, so wäre der Mittelwert  die bestmögliche Vorhersage für y.

Bartlett Test

. Bartlett-Test auf Sphärizität. Er prüft im Rahmen der Faktorenanalyse, ob die Korrelationsmatrix der beobachteten Variablen in der Grundgesamtheit gleich der Einheitsmatrix ist

aV und uV

Die abhängige Variable wird im Experiment gemessen. In ihr zeigt sich die Wirkung einer unabhängigen Variablen.

Die abhängige Variable (AV) zeigt die Auswirkung einer unabhängigen Variable (UV) und soll am Ende eines Experimentes gemessen werden. In ihr zeigt sich also der Effekt einer implementierten Maßnahme (unabhängigen Variable). Um eine abhängige Variable messen zu können, muss sie zunächst operationalisiert werden. Das macht man so, dass man sie sowohl in der Maßnahmegruppe (Versuchsgruppe), als auch in der Kontrollgruppe messen kann. Durch das Messen der AV soll festgestellt werden, ob eine implementierte Maßnahme (unabhängige Variable) wirksam ist. Es wird also der Einfluss der UV auf die Ausprägung der AV untersucht. Werden mehrere AV in einer Untersuchung erhoben, spricht man von einem multivariaten Design.

 

Autokorrelation

ei TSCS-Datensätzen korrelieren zeitlich
eng beieinanderliegende Beobachtungen der Beobachtungseinheiten. Sind die Fehlterme nicht
unabhängig, spricht man auch von Autokorrelation.
Korrelierte Fehlerterme haben zur Folge, dass die Standardfehler der Regressionsparameter ver-
zerrt geschätzt werden. Die Konsequenz ist abermals, dass auch Konfidenzintervalle und Signifi-
kanztests verzerrt sind

Auswahlbias

Auswahlbias entsteht durch eine problematische Fallauswahl.

Sie entstehen durch eine Verletzung der Selektionsregel, der kontrollierten und reprsentativen Fallauswahl. Dadurch werden die kausalen Effekte über- oder unterschätzt

Auswahlbia

ntsteht, wenn Fälle für eine Stichprobe in einer Weise ausgewählt werden, dass die Schlüsse, die aus dieser Stichprobe über die Grundgesamtheit gezogen werden, zu einer Über- oder Unterschätzung der tatsächlich vorliegenden kausalen Effekte führen

Arten von Hypothesen

Deterministische und probabilistische Hypothese 

Diekmann (2011, S. 124) unterscheidet zwischen deterministischen und probabilistischen Hypothesen. Deterministische Hypothesen behaupten, dass ein Sachverhalt oder ein Ereignis mit Sicherheit eintreten muss, wenn bestimmte Bedingungen vorliegen (z. B. Wasser kocht bei einer Temperatur von 100 Grad Celsius).

Probabilistische Hypothesen behaupten, dass ein Sachverhalt oder ein Ereignis nur mit einer gewissen Wahrscheinlichkeit eintritt, wenn bestimmte Bedingungen vorliegen. In den Naturwissenschaften werden in der Regel deterministische, in den Sozialwissenschaften probabilistische Hypothesen formuliert.

Nullhypothesen

Alternativhypothesen

Arten von Fällen

Tabelle 1: Typen von Einzelfallstudien
Typ Beschreibung Theoriebezug Beispiel
Repräsentativ Typisch für eine Kategorie von Fällen
Theorietestend, ggf.
theoriegenerierend
Schweiz als direkte De-
mokratie


Prototypisch Exemplarisch für ein
sich ausbildendes Mus-
ter von Prozessen
Theorietestend Französische Revolution
als Prototyp für an-
schließende Revolutio-
nen


Abweichend
(deviant cases)
Überprüfung abwei-
chender Fälle zur Fest-
stellung der Gründe für
die Abweichung
Theorietestend Stabile präsidiale Demo-
kratie in Costa Rica
Entscheidend
(crucial cases)
Test einer Theorie an
besonders günstigen
oder ungünstigen Fällen
Theorietestend Singapur und Indien als
günstigster/ungünstigs-
ter Fall für Demokratie


Archetypisch Untersuchung eines
Prozesses bzw. eines
Falls, der zu einer Kate-
gorienbildung führt
Theoriegenerierend Niederlande als Arche-
typ einer versäulten Ge-
sellschaft
Quelle: In Anlehnung an Pickel (2016b, S. 3

Anzahl der Faktoren

· Wie bestimme ich die Anzahl der zu extrahierenden Faktoren? Hierfür existieren verschiedene Prüfverfahren (Kaiser-Kriterium, Scree-Test, Parallelanalyse).

Analyseschritte

aufeinanderfolgende Analyseschritte identifizieren:

 (1) Überprüfung der Eignung der analysierten Items oder Variablen,

 (2) Bestimmung der Extraktionsmethode,

 (3) Bestimmung der Anzahl der zu extrahierenden Faktoren,

(4) Rotation der Faktorenmatrix bzw. -lösung,

 (5) inhaltliche Interpretation der extrahierten Faktoren

Analyseebenen

Mikro und Makro

Makroebene   Gesellschaftliche Ebene

Mesoebene    Analytische Ebene zwischen Mikro und Makroebene

Mikroebene    Individualebene , Zusammenhang zwischen Individualmerkmalen

Aggregatdatenanalyse

Studiendesign, bei dem sich die verwendeten Daten auf die Aggregatebene beziehen und die mittels statistischer Verfahren ausgewertet werden

) Bestimmung der Anzahl zu extrahierender Faktoren

) Bestimmung der Anzahl zu extrahierender Faktoren. Für diese Entscheidung können das Kaiser-Kriterium, der Scree-Test sowie die Parallelanalyse

   Nr. 20 Das lineare Regressionsmodell mit einer dichotomen abhängigen Variablen wird als lineares Wahrscheinlichkeitsmodell (LPM) bezeichnet. Nennen und erläutern Sie knapp zwei Probleme, die gegen die Anwendung eines LPM sprechen. Punkte (2)     Musterantwort:

 

1. Fehlerverteilung des Modells ist heteroskedastisch. Damit ist eine Voraussetzung der linearen Regression verletzt. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder Residuen genannt und sind wahrscheinlichkeitstheoretisch jeweils Zufallsvariablen. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird.

2. Fehlerverteilung folgt nicht einer Normalverteilung, sie ist heterskedastisch. Dadurch ist die Berechnung der Standardfehler fehlerhaft.

3. Das LPM schätzt in den Extrembereichen Wahrscheinlichkeiten kleiner 0 bzw. größer 1. Dies ist per Definition aber nicht möglich.

4. Theoretisch wird häufig argumentiert, dass die lineare Modellierung nicht für alle uVs plausibel ist.

 

   Nr. 20 Das lineare Regressionsmodell mit einer dichotomen abhängigen Variablen wird als lineares Wahrscheinlichkeitsmodell (LPM) bezeichnet. Nennen und erläutern Sie knapp zwei Probleme, die gegen die Anwendung eines LPM sprechen. Punkte (2)     Musterantwort:

 

1. Fehlerverteilung des Modells ist heteroskedastisch. Damit ist eine Voraussetzung der linearen Regression verletzt. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder Residuen genannt und sind wahrscheinlichkeitstheoretisch jeweils Zufallsvariablen. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird.

2. Fehlerverteilung folgt nicht einer Normalverteilung. Dadurch ist die Berechnung der Standardfehler fehlerhaft.

3. Das LPM schätzt in den Extrembereichen Wahrscheinlichkeiten kleiner 0 bzw. größer 1. Dies ist per Definition aber nicht möglich.

4. Theoretisch wird häufig argumentiert, dass die lineare Modellierung nicht für alle uVs plausibel ist.