M2_Statistik I Kap. 5-11

B.Sc. Psychologie Fernuniversität Hagen

B.Sc. Psychologie Fernuniversität Hagen


Fichier Détails

Cartes-fiches 18
Utilisateurs 19
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 12.11.2013 / 01.02.2025
Lien de web
https://card2brain.ch/box/m2statistik_i_kap_511
Intégrer
<iframe src="https://card2brain.ch/box/m2statistik_i_kap_511/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Welche Lageparameter gibt es?

  • Modus oder Modalwert (xmod), definiert die Merkmalsausprägung mit der größten Häufigkeit, man braucht also ein eindeutig bestimmbares Maximum
  • Median (x-Schlange, xmed), müssen mind. ordinalskaliert sein (also natürliche Rangordnung), mittlerer Wert des Datensatzes, bei ordinalskalierten Merkmal nicht eindeutig bestimmt, bei metrisch skaliertem Merkaml eindeutig bestimmbar
  • Mittelwert, arithmetisches Mittel, nur bei metrisch skalierten Merkmalen anwendbar (bekanntester Parameter)

 

Mittelwert berücksichtig alle Wert einse Datensatzes mit gleichem Gewicht (1/n), Median gehen nur ein oder zwei zentrale Elemente eines Datensatzes ein.

--> vergrößert sich der Wert xmax=x(n) deutlich, hat das nur auf den Mittelwert einen Effekt. Reagiert also empfindlich gegenüber extremen Werten (der Median nicht). = höhere Sensitivität oder geringer Robustheit

Welchen Lageparameter setze ich wann ein?

nominalskaliert: nur Modalwert möglich

metrisch skaliert: Modalwert, Median, Mittelwert, hier muss man überlegen, wie Robust die Kenngröße sein soll. Oft wird nicht nur ein Lageparameter berechnet, um zusätzliche Informationen zu erhalten. Bei einkommensverteilung kann z.B. Median und Mittelwert verglichen werden und somit Aussagen zur Symmetrie oder Asymmetrie abgeleitet werden.

Was sind die Kenngrößen für die Streuung von Datensätzen?

  • Spannweite R: Nachteil, geringe Robustheit. Ändert man den max oder min Wert stark, ändert sich auch R massiv
  • Varianz / Stichprobenvarianz / emp. Varianz: häufiger verwendet, bildet Mittelwert aus den Quadraten, xi-xmittel kommt nicht in Verwendung, da es gegen 0 läuft --> quadratisches Streuungsmaß, man bekommt das lineare, wenn man die Wurzel zieht
  • Standardabweichung / emp. Standardabweichung: man zieht die Wurzel aus emp. Varianz --> wesentlisch anschaulicher
  • korrigierte Varianz / korrigierte Stichprobenvarianz (wird häufig beim Schätzen und Testen verwendet) --> Wurzel daraus ergibt korrigierte Standardabweichung

Wie kann man Datensätze vergleichen, die sich auf unterschiedliche Grundgesamtheiten beziehen oder mit unterschiedlichen Messinstrumenten gewonnen wurden?

jedes Element eines Datensatzes jeweils dessen Mittelwert subtrahieren und die Differenz durch die Standardabweichung oder die korrigierte Standardabweischung dividieren.

Es entstehen neue Datensätze y1, y2,...yn mit dem Mittelwert=0 und s=1 / s*=1

--> z-Transformation

 

z. B. bei Intelligenzmessungen in unterschiedlichen Grundgesamtheiten, oder unterschiedliche Fragebögen

Wie erkennt man eine asymmetrische Verteilung?

Dezile bei Wahl von p=0,1, p=0,2,... p=0,9 werden mit D1, D2,...D9 abgekürzt (Median ist somit D5)

Informationen über Grad der Ungleichheit bekomme ich wenn ich D9/D1 teile --> hohe Werte = ausgeprägte Ungleichheit.

Wenn Grafik links steiler abfällt (höhere Werte links) = linkssteile Verteilung

Wenn Grafik rechts steiler abfällt (höhere Werte recht) = rechststeile Verteilung (s. Abb. S. 47)

 

bei Nicht-Übereinstimmung von Median und Mittelwert schon Indiz für Asymmetrie.

Was ist der Boxplot ("Schachtelzeichnung")?

s. S. 71:

Boxplots mit großer Spannweite und kleinem Quartilsabstand (kleine Box) weisen auf wenig ausgeglichene Einkommensverteilungen hin.

 

Gini-Konzentration:

0<G*<1 = mäßige Konzentration

 

0,5<G*<1 = deutliche Konzentration

Maßzahl, Verhältniszahl:

  • Maßzahlen: Zahlen, die einen Sachverhalt quantifizieren
  • Verhältniszahl: Zwei Maßzahlen, die durch Quotientenbildung mit einander verknüpft sind (sollen Vergleichbarkeit ermöglichen, relative Häufigkeit ist eine Verhältniszahl)
  • Gliederungszahlen: Verhältniszahlen, bei denen Grundgesamtheit durch Anteilsbildung bezüglich eines Merkmals strukturiert wird (rel. Häufigkeit, Erwerbslosenquote, meist % Werte)
  • Beziehungszahlen: Verhältniszahlen, die durch Quotientenbildung eine Verbindung zw. 2 unterschiedlichen Merkmalen herstellen (BIP: Euro/Einwohner, Bevölkerungsdichte einer Region: Einwohnerzahl/qkm)
  • einfache Indexzahlen: dasselbe Merkmal, aber verschiedene Perioden, z.B. Preis eines Produkts 2005 im Vergleich zu 2013: It=xt/x0 (S.86), x0 Preis im Jahr 2005, "einfach", weil sich nur auf ein Merkmal bezieht.
  • zusammengesetzte Indexzahlen / Indikatoren: aus mehreren Indikatoren gebildete Aggregate (z.B. Medallienbsp Bildung der Summe der Medallien, Verbraucherpreisindex, Aktienindizes: Deutsche Aktienindex (DAX), Dow Jones Index,

Verwendung zusammengesetzter Indexzahlen:

Zur Messung von Wohlfahrt, Bewertung von Politiken, Fortschritten im Bereich der Entwicklungshilfe, Umweltschutzes sowie der Technologieförderung:

  • Human Development Index (Alternative zum BIP),Human Poverty Index (UN) --> bilden Wohlfahrtsentwicklungen in verschiedenen Ländern ab
  • European Innovation Scoreboard (EIS), Infos über europ. Länder bezügl. der Verwendung moderner Kommunikationstechnologien in Geschäftsprozessen bzw. zur Innovationskraft der Länder

Vor- und Nachteile von zusammengesetzten Indexzahlen:

Vorteile:

  • ermöglichen eindimensionale Betrachtung multidimensionaler Phänomene (additive Verknüpfung eines Sets von Maß- und Verhältniszahlen, brechen also Indikatorensysteme auf eine einzige Variable herunter
  • gestatten direkten Ländervergleich und somit mehr Beachtung in den Medien als komplexe Systeme von Einzelwerten

Nachteile:

  • begrenzte Aussagekraft, da Werte von Gewichten für einfließende Zahlen abhängen und Festlegung der Gewichte nicht immer nachvollziehbar
  • eingehende Einzelindikatoren im Zeitverlauf werden häufig geändert (Aufnahme neuer Indikatoren, Veränderung der bestehenden Indikatoren) und somit Rangplätze für Länder für versch. Zeitpunkte nicht unbedingt vergleichbar

 

Rankings hängen davon ab, wie Indikatoren gewichtet sind. Meistens mit gleichem Gewicht verknüpft, da keine Infos, die unterschiedliche Gewichtung motivieren. Zusammengesetzte Verhältniszahlen sollten nur als grobe erste Orientierungsmarke verstanden werden. Kann Betrachtung von Einzelindikatoren nicht ersetzen.

Was sind binäre bzw. dichotome Merkmale?

Zusammenhänge zw. zwei Merkmalen, die je nur zwei Ausprägungen aufweisen.

Bsp: Geschlecht und Prüfungserfolg, wenn nur zw. "bestanden" und "nicht bestanden" differenziert wird.

Wann spricht man von vollständiger Abhängigkeit der beiden Merkmale? (Zusammenhangsmessung)

Wenn der xquadrat-Koeffizient den Wert xquadrat(max) annimmt.

Wofür ist der xquadrat-Koeffizient?

Vergleich von zwei diskreten Merkmalen X und Y in einer Kontingenztabelle.

Wann kann man zwei Kontingenztabellen miteinander vergleichen?

  • Kontingenztafeln gleicher Dimensionen
  • Umfang n muss übereinstimmen

dann Vergleich mit xquadrat möglich. Aber Wurzel aus (xquadrat/n), dann vom Umfang n unabhängig.

pi (S. 117)

Ai=pi, wenn Produktterm pi positiv (I. und III.)

Ai= -pi, wenn Produktterm pi negativ (II. und IV.)

 

Wenn alle Punkte auf einer steigenden Geraden durch (x-quer-y-quer) liegen, liefert jeder Punkt einen nicht-negativen Beitrag.

Es gilt: Die Kovarianz wird um so kleiner, je mehr Datenpunkte im zweiten und vierten Quadranten liegen.

 

Wenn alle Punkte auf einer fallenden Geraden, dann kein Punkt liefert positiven Beitrag zur Kovarianz.

Korrelationskoeffizient:

hier = Welle (S. 119)

r=0,9 starke positive Korrelation (r>0 positive Korrelation)

r=0 Unkorreliertheit

r= -0,7 mäßig ausgeprägte negative Korrelation (r<0 negative Korrelation)

 

Korrelationskoeffizient r ist ein Maß für linearen Zusammenhang (misst die Stärke des linearen Zusammenhangs). Wenn r=0 kann durchaus nicht-linearer Zusammenhang vorliegen. Wenn als r ist nicht 0, schließt das nur auf einen linearen Merkmalszusammenhang.

 

r=1 vollständige Korrelation

0< r <0,5 schwache Korrelation

0,5< r <1 mäßige bis starke Korrelation

Was ist Scheinkorrelation?

Wenn zw. X und Y nur ein indirekter Zusammenhang besteht und es ein drittes Merkmal Z gibt, dass mit den beiden anderen Merkmalen korreliert ist.

Bsp: Sturmtage und Katastrophenschäden scheinen zu korrelieren. Es könnte aber die Weltweite CO2-Emission auf beide Merkmale Einfluss haben.

Rangkorrelationskoeffizient:

rsp > 0  gleichsinniger Zusammenhang

rsp < 0  gegensinniger Zusammenhang

rsp = 0  fehlender Zusammenhang

 

  • auch für metrische Merkmale anwendbar
  • Vorteil: höhere Robustheit
  • Nachteil: verarbeitet nur die Rangpositionen, metrische Daten dadurch nur sehr eingeschränkt ausgeschöpft