Statitik Grundlegende Begriffe
Grundlegende Begriffe erläutern Hartwig Vester
Grundlegende Begriffe erläutern Hartwig Vester
Fichier Détails
Cartes-fiches | 148 |
---|---|
Langue | Deutsch |
Catégorie | Affaires sociales |
Niveau | Université |
Crée / Actualisé | 08.09.2019 / 22.08.2021 |
Lien de web |
https://card2brain.ch/box/20190908_statitik_grundlegende_begriffe
|
Intégrer |
<iframe src="https://card2brain.ch/box/20190908_statitik_grundlegende_begriffe/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Créer ou copier des fichiers d'apprentissage
Avec un upgrade tu peux créer ou copier des fichiers d'apprentissage sans limite et utiliser de nombreuses fonctions supplémentaires.
Connecte-toi pour voir toutes les cartes.
Bestimmtheitsmaße Nagelkerke
Mc Fadden
Snell
Im Falle einer linearen Regression beschreibt das Bestimmtheitsmaß den erklärten Anteil der Variabilität (Varianz) einer abhängigen Variablen Y durch ein statistisches Modell. Bei einem nominalen oder ordinalen Skalenniveau von Y (z. B. bei Klassifikationen) existiert jedoch kein Äquivalent, da man die Varianz und damit ein R 2 nicht berechnen kann.
Das Pseudo-Bestimmtheitsmaß
Pseudo-Bestimmtheitsmaße sind so konstruiert, dass sie den verschiedenen Interpretationen (z. B. erklärte Varianz, Verbesserung gegenüber dem Nullmodell oder als Quadrat der Korrelation) des Bestimmtheitsmaßes genügen. Sie sind dem R 2 in der Hinsicht ähnlich, dass dessen Werte ebenfalls im Intervall von 0 und 1 liegen und ein höherer Wert einer besseren Anpassung des Modells an die Daten entspricht.
Likelihood-basierte Maße
Maddalas / Cox & Snells Pseudo-R2
R M a d d a l a 2 = 1 − ( L 0 L 1 ) 2 / n ,
mit
L 0 : Nullmodell,
L 1 : Modell mit erklärenden Variablen
R M a d d a l a 2 ∈ [ 0 , 1 )
Nagelkerkes / Cragg & Uhlers Pseudo-R2
R N a g e l k e r k e 2 = 1 − ( L 0 L 1 ) 2 / n 1 − L 0 2 / n ,
mit
L 0 : Nullmodell,
L 1 : Modell mit erklärenden Variablen
R N a g e l k e r k e 2 ∈ [ 0 , 1 ]
Nagelkerkes Pseudo-R2 erweitert Maddalas Pseudo-R2, sodass durch eine Reskalierung ein möglicher Wert von 1 erreicht werden kann, wenn das vollständige Modell eine perfekte Vorhersage mit einer Wahrscheinlichkeit von 1 trifft.
Nagelkerke gab auch allgemeine Bedingungen für ein Pseudo-Bestimmtheitsmaß an:
Bestimmtheitsmaß R2
R2 an. Es gibt an, welcher prozentuale Anteil der Gesamtstreuung von Y durch die Regressionsgleichung erklärt wird. Hätte man keine Informationen über den Zusammenhang von y und x, so wäre der Mittelwert die bestmögliche Vorhersage für y.
Bartlett Test
. Bartlett-Test auf Sphärizität. Er prüft im Rahmen der Faktorenanalyse, ob die Korrelationsmatrix der beobachteten Variablen in der Grundgesamtheit gleich der Einheitsmatrix ist
aV und uV
Die abhängige Variable wird im Experiment gemessen. In ihr zeigt sich die Wirkung einer unabhängigen Variablen.
Die abhängige Variable (AV) zeigt die Auswirkung einer unabhängigen Variable (UV) und soll am Ende eines Experimentes gemessen werden. In ihr zeigt sich also der Effekt einer implementierten Maßnahme (unabhängigen Variable). Um eine abhängige Variable messen zu können, muss sie zunächst operationalisiert werden. Das macht man so, dass man sie sowohl in der Maßnahmegruppe (Versuchsgruppe), als auch in der Kontrollgruppe messen kann. Durch das Messen der AV soll festgestellt werden, ob eine implementierte Maßnahme (unabhängige Variable) wirksam ist. Es wird also der Einfluss der UV auf die Ausprägung der AV untersucht. Werden mehrere AV in einer Untersuchung erhoben, spricht man von einem multivariaten Design.
Autokorrelation
ei TSCS-Datensätzen korrelieren zeitlich
eng beieinanderliegende Beobachtungen der Beobachtungseinheiten. Sind die Fehlterme nicht
unabhängig, spricht man auch von Autokorrelation.
Korrelierte Fehlerterme haben zur Folge, dass die Standardfehler der Regressionsparameter ver-
zerrt geschätzt werden. Die Konsequenz ist abermals, dass auch Konfidenzintervalle und Signifi-
kanztests verzerrt sind
Auswahlbias
Auswahlbias entsteht durch eine problematische Fallauswahl.
Sie entstehen durch eine Verletzung der Selektionsregel, der kontrollierten und reprsentativen Fallauswahl. Dadurch werden die kausalen Effekte über- oder unterschätzt
Auswahlbia
ntsteht, wenn Fälle für eine Stichprobe in einer Weise ausgewählt werden, dass die Schlüsse, die aus dieser Stichprobe über die Grundgesamtheit gezogen werden, zu einer Über- oder Unterschätzung der tatsächlich vorliegenden kausalen Effekte führen
Arten von Hypothesen
Deterministische und probabilistische Hypothese
Diekmann (2011, S. 124) unterscheidet zwischen deterministischen und probabilistischen Hypothesen. Deterministische Hypothesen behaupten, dass ein Sachverhalt oder ein Ereignis mit Sicherheit eintreten muss, wenn bestimmte Bedingungen vorliegen (z. B. Wasser kocht bei einer Temperatur von 100 Grad Celsius).
Probabilistische Hypothesen behaupten, dass ein Sachverhalt oder ein Ereignis nur mit einer gewissen Wahrscheinlichkeit eintritt, wenn bestimmte Bedingungen vorliegen. In den Naturwissenschaften werden in der Regel deterministische, in den Sozialwissenschaften probabilistische Hypothesen formuliert.
Nullhypothesen
Alternativhypothesen
Arten von Fällen
Tabelle 1: Typen von Einzelfallstudien
Typ Beschreibung Theoriebezug Beispiel
Repräsentativ Typisch für eine Kategorie von Fällen
Theorietestend, ggf.
theoriegenerierend
Schweiz als direkte De-
mokratie
Prototypisch Exemplarisch für ein
sich ausbildendes Mus-
ter von Prozessen
Theorietestend Französische Revolution
als Prototyp für an-
schließende Revolutio-
nen
Abweichend
(deviant cases)
Überprüfung abwei-
chender Fälle zur Fest-
stellung der Gründe für
die Abweichung
Theorietestend Stabile präsidiale Demo-
kratie in Costa Rica
Entscheidend
(crucial cases)
Test einer Theorie an
besonders günstigen
oder ungünstigen Fällen
Theorietestend Singapur und Indien als
günstigster/ungünstigs-
ter Fall für Demokratie
Archetypisch Untersuchung eines
Prozesses bzw. eines
Falls, der zu einer Kate-
gorienbildung führt
Theoriegenerierend Niederlande als Arche-
typ einer versäulten Ge-
sellschaft
Quelle: In Anlehnung an Pickel (2016b, S. 3
Anzahl der Faktoren
· Wie bestimme ich die Anzahl der zu extrahierenden Faktoren? Hierfür existieren verschiedene Prüfverfahren (Kaiser-Kriterium, Scree-Test, Parallelanalyse).
Analyseschritte
aufeinanderfolgende Analyseschritte identifizieren:
(1) Überprüfung der Eignung der analysierten Items oder Variablen,
(2) Bestimmung der Extraktionsmethode,
(3) Bestimmung der Anzahl der zu extrahierenden Faktoren,
(4) Rotation der Faktorenmatrix bzw. -lösung,
(5) inhaltliche Interpretation der extrahierten Faktoren
Analyseebenen
Mikro und Makro
Makroebene Gesellschaftliche Ebene
Mesoebene Analytische Ebene zwischen Mikro und Makroebene
Mikroebene Individualebene , Zusammenhang zwischen Individualmerkmalen
Aggregatdatenanalyse
Studiendesign, bei dem sich die verwendeten Daten auf die Aggregatebene beziehen und die mittels statistischer Verfahren ausgewertet werden
) Bestimmung der Anzahl zu extrahierender Faktoren
) Bestimmung der Anzahl zu extrahierender Faktoren. Für diese Entscheidung können das Kaiser-Kriterium, der Scree-Test sowie die Parallelanalyse
Nr. 20 Das lineare Regressionsmodell mit einer dichotomen abhängigen Variablen wird als lineares Wahrscheinlichkeitsmodell (LPM) bezeichnet. Nennen und erläutern Sie knapp zwei Probleme, die gegen die Anwendung eines LPM sprechen. Punkte (2) Musterantwort:
1. Fehlerverteilung des Modells ist heteroskedastisch. Damit ist eine Voraussetzung der linearen Regression verletzt. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder Residuen genannt und sind wahrscheinlichkeitstheoretisch jeweils Zufallsvariablen. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird.
2. Fehlerverteilung folgt nicht einer Normalverteilung, sie ist heterskedastisch. Dadurch ist die Berechnung der Standardfehler fehlerhaft.
3. Das LPM schätzt in den Extrembereichen Wahrscheinlichkeiten kleiner 0 bzw. größer 1. Dies ist per Definition aber nicht möglich.
4. Theoretisch wird häufig argumentiert, dass die lineare Modellierung nicht für alle uVs plausibel ist.
Nr. 20 Das lineare Regressionsmodell mit einer dichotomen abhängigen Variablen wird als lineares Wahrscheinlichkeitsmodell (LPM) bezeichnet. Nennen und erläutern Sie knapp zwei Probleme, die gegen die Anwendung eines LPM sprechen. Punkte (2) Musterantwort:
1. Fehlerverteilung des Modells ist heteroskedastisch. Damit ist eine Voraussetzung der linearen Regression verletzt. Die Abweichungen der Datenpunkte von der Geraden werden Störterme oder Residuen genannt und sind wahrscheinlichkeitstheoretisch jeweils Zufallsvariablen. Homoskedastie bzw. Heteroskedastie bezieht sich auf die Verteilung dieser Störterme, die mittels der Varianz erfasst wird.
2. Fehlerverteilung folgt nicht einer Normalverteilung. Dadurch ist die Berechnung der Standardfehler fehlerhaft.
3. Das LPM schätzt in den Extrembereichen Wahrscheinlichkeiten kleiner 0 bzw. größer 1. Dies ist per Definition aber nicht möglich.
4. Theoretisch wird häufig argumentiert, dass die lineare Modellierung nicht für alle uVs plausibel ist.
Was sind Skalen
Eine Skala ist eine strukturtreue Abbildung eines empirischen Relativs in ein numerisches Relativ
ohne Abschluss 1
Hauptschule 2
Mittlere Reife 3
Fachhochschulreife 4
Hochschulreife 5
Wahrheitstabelle
Anschließend kann aus der Wahrheitstabelle mittels logischer Minimierung – in der Regel durch das entsprechende QCA-Programm – überprüft werden, inwiefern notwendige und/oder hinreichende Bedingungen für das Outcome Y vorliegen.
Ein Problem bei der Reduktion der Wahrheitstabelle kann der Umgang mit begrenzter empirischer Vielfalt und den sogenannten logischen Rudimenten („logical remainders“)
Hauptachsenanalyse und Hauptkomponentenanalyse
Was ist der Unterschied zwischen einer Hauptachsenanalyse und einer Hauptkomponentenanalyse bei einer Faktorenanalyse?
Streng genommen gehört nur die Hauptachsenanalyse (engl. Principal Axis Factoring, PAF) zu der Faktorenanalyse. Bei dieser Methode werden nur die Kovarianzen aller Variablen – meist sind es die Items eines Fragebogens – analysiert, es ist also nicht unbedingt das Ziel, die vollständige Varianz der Variablen aufzuklären, sondern nur ihre gemeinsame Varianz. Das Verfahren wird in erster Linie dann eingesetzt, wenn es darum geht, latente Konstrukte oder Strukturen hinter den Variablen zu entdecken und diese „sichtbar“ zu machen. Der Anteil an Varianz einer Variablen, der nicht mit anderen Variablen kovariiert, wird also nicht berücksichtigt.
Bei der Hauptkomponentenanalyse (engl. Principal Component Analysis, PCA) wird hingegen versucht, die vollständige Varianz aller Variablen mit wenigen Komponenten zu erklären. Sie wird dann eingesetzt, wenn das Ziel darin besteht, die Datenstruktur zu reduzieren. Kurz zusammengefasst kann man formulieren, dass die HAA kovarianz- und die HKA varianzorientiert ist. Oft kommen jedoch beide Verfahren zu ähnlichen Ergebnissen.
Ökologischer Fehlschluss
Zusammenhänge auf der Aggregatebene (z.B. Arbeitslosen-quote und Wahlbeteiligung) können nicht einfach auf die Individualebene übertragen werden. Fachausdruck: ökologischer Fehlschluss. Bei Falter der Zusammenhang zwischen der Arbeitslosigkeit und dem Anteil der NSDAP Wähler, dieser Zusammenhang war auf der Mikroebene nicht erkennbar, diese whlten prioritr die KPD.
Äquivalenzproblem
Ein valides Messinstrument kann in Kontext A etwas völlig anderes messen als in Kontext B. Die Vergleichbarkeit der Indikatoren ist schwierig
Äquifinalität
Dies bedeutet, dass unterschiedliche Bedingungen oder auch Kombinationen mehrerer Bedingungen zum selben Outcome führen können.
Zusammenhang von S G W
Der Zusammenhang „S * G W“ sagt aus, dass die Kombination von starken sozialdemokratische Parteien UND starken Gewerkschaften hinreichend für ausgebaute Wohlfahrtsstaaten ist. Immer wenn beide Bedingungen gemeinsam auftreten, liegt auch das Outcome eines ausgebauten Wohlfahrtsstaates vor.
Zuordnungen
Wählen Sie jeweils aus, welcher Fachbegriff beschrieben wird.
Folgende Zuordnungen sind korrekt:
Summe der quadrierten Faktorladungen > Eigenwert
Anteil der Varianz eines Items, der durch die Faktoren erklärt werden kann > Kommunalität
Korrelation zwischen dem Faktor und einem Item > Faktorladung
Summe der quadrierten Korrelationen aller Items mit dem Faktor > Eigenwert
Differenz von 1 und spezifischer Varianz > Kommunalität
Zuordnung zu einer Analyseebene
uV aV Bezeichnung der Hypothese
Mikromerkmal Mikromerkmal Individualhypothese
( z.B. Bildung ) ( z.B, Einkommen )
Makromerkmal Makromerkmal Kollektivhypothese
Arbeitslosenquote Stimmenanteil
Makromerkmal
8 z.B. Klassengrösse) Leistung in einem Test Kontexthypothese
Wie unterscheiden sich Typologien
Typologien lassen sich anhand verschiedener Merkmale unterscheiden.
Zum einen gibt es den Gegensatz zwischen Idealtypen und extrahierten Typen:
[Idealtypen] entstehen durch [Deduktion] und abstrahieren von der Realität,
während [extrahierte Typen] die Wirklichkeit beschreiben sollen. Außerdem unterscheiden sich Typologien anhand des Grades der [Generalisierung]: dieser nimmt mit der Anzahl der Merkmalskombinationen [ab].
Weiterhin lassen sich klassifikatorische von [kontinuierlichen] Typologien unterscheiden: der empirisch beobachtete Gegenstand kann entweder [genau] einem Typ (klassifikatorisch) oder [mehr oder weniger] einem Typ ([kontinuierlich]) zugeordnet werden.
Werte von Regressionskoeffizienten
Der Wertebereich der RegressionskoeffizientenB (Logit-Koeffizienten) ist von -unendlich bis +unendlich.
Der Wertebereich der Exp(B)-Koeffizienten (Odds-Ratio) ist von 0 bis +unendlich.
Welche Organisation archiviert quantitative Datensätze?Musterantwort: GESIS
) Musterantwort: GESIS
Welche drei Elemente eines Konzepts lassen sich unterscheiden? Woraus besteht das Konzept
Term, Intension und Extension.
Was sind deskriptive Forschungsfragen?
Deskriptive Forschungsfragen dienen der Beschreibung. Sie sind nach King et al. (1994) zwar häufig unentbehrlich für wissenschaftliche Forschung, aber die Sammlung von Fakten ist nicht das Ziel sozialwissenschaft-licher Forschung.
Was ist Overreporting?
Mit Overreporting wird das Phänomen bezeichnet, dass die durch Umfragen ermittelte Wahlbeteiligung regelmäßig höher ausfällt als die offizielle (amtliche) Wahlbeteiligung. Ursachen: Soziale Erwünschtheit, Selektivität der Stichprobe.
-
- 1 / 148
-