Statistik 3

Deskriptivstatistik für metrische Variablen

Deskriptivstatistik für metrische Variablen


Fichier Détails

Cartes-fiches 41
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 07.01.2016 / 03.01.2023
Lien de web
https://card2brain.ch/box/statistik_31
Intégrer
<iframe src="https://card2brain.ch/box/statistik_31/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

metrische Variablen:

Intervall-, Verhältnis- und Absolutskala

primäre Häufigkeitsverteilungen:

etnsteht aus der Urliste: gruppierte und geordnete Auflistung aller Messwerte

sekundäre Häufigkeitsverteilung:

> Ausgehend von der primären Häufigkeits-
 verteilung werden Kategorien gebildet und 
 unter diesen werden die Messwerte 
 zusammengefasst

>  Kategorienbildung mehr oder weniger willkürlich 
 (meistens 10-20 Kategorien)

>  Faustregel zur Bestimmung der Anzahl 
 Kategorien:
 \(\sqrt{k}\)

(k: Anzahl Merkmausausprägungen)

>  Kategoriengrenzen (cj und cj-1) werden so 
 definiert, dass sie genau zwischen dem 
 grössten und dem kleinsten Messwert 
 benachbarter Kategorien liegen

z.B. für die 1. Kategorie: c1 (Obergrenze) = 34,5
 c0 (Untergrenze) = 29,5 

Histogramm:

Unterscheidet sich vom Säulendiagramm dadurch, dass die Breite der Säulen 
 interpretierbar ist (da auf Zahlenstrahl angeordnet und Abstand zwischen Zahlen bei metrischen Variablen bedeutsam)

Polygonzug:

-  Die Mitten der Kategorien werden miteinander verbunden

-  Sinnvoll bei kontinuierlichen Variablen (z.B. Reaktionszeit) 

--> bringt den kontinuierlichen Charakter des Merkmals zum Ausdruck 

wichtige Beschreibunsmerkmale von Verteilungsformen:

-  Symmetrie vs. Asymmetrie

-  Gipfelform (Schiefe und Wölbung) und Gipfelzahl 

Besonderheit symmetrischer Verteilungen:

links und rechts (spiegelverkehrt) von einem bestimmten Wert identisch

Besonderheit asymmetrische Verteilungen:

Schwerpunkt ist verschoben

-  Linksgipflig / linkssteil / rechtsschief

-  Rechtsgipflig / rechtssteil / linksschief 

breitgipflig:

Verteilungen mit vielen Werten um den Modalwert

schmalgipflig oder steilgipflig:

Verteilungen mit wenig Werten um den Modalwert

Verteilungen nach Gipfelzahl:

-  Unimodal

-  Bimodal

-  Multimodal 

weitere Verteilungen, die nicht auf einem Haufen basieren:

  • U-förmige, umgekehrt U-förmige, V-, L- oder J-förmige Verteilungen 

Interquartilsabstand:

Breite der Box im Box- und Whiykers-Diagramm

(Abstand Unteres Quantil und oberes Quantil)

Ausreisser Wert:

nicht im Q1/3 + 1.5 x IQA Whiskers, aber im Q1/3 + 3 x IQA Whiskers

Extremwert:

nichtmehr im Q1/3 + 3 x IQA Whiskers

Stamm-Blatt-Diagramm:

Auszug aus einer sortierten Urliste von Reaktionszeiten (n = 88):

1,347 1,401 1,487 2,299 ... 6,453 6,728

Stem-and-Leaf Plot

Frequency

3,00 15,00 25,00 28,00 12,00

5,00 Stem width:

Each leaf:

Stem & Leaf


1 | 344
2 | 246666678899999
3 | 0001111233333344555688889
4 | 0011111122223334445556777888 5 | 001233334457
6 | 23447

1,00
1 case(s) 

Stem width:

gibt die Breite einer Klasse (eines Intervalls) an

Modalwert/Modus:

>  Messwert, der für die am häufigsten besetzte Merkmalsausprägung steht

>  Bei sehr vielen möglichen Merkmalsausprägungen (kontinuierliche Variablen), macht diese Definition wenig Sinn, da eine hohe Wahrscheinlichkeit besteht, dass alle Ausprägungen nur einmal vorkommen

- in diesem Fall schaut man im Histogramm, welches die Kategorie ist, die am häufigsten besetzt ist; per Definition ist die Mitte dieser Kategorie der Modus

--> Gipfel eines Polygonzugs markiert somit (bei unimodalen Verteilungen) den Modus 

Median:

> Definition und Berechnung gleich wie bei ordinalskalierten Daten

> Median (Md): Wert, der eine Reihe geordneter Beobachtungswerte in zwei

annähernd gleich grosse Teile teilt

—  Mindestens 50% der Merkmalsträger haben kleinere Werte als oder 
 gleich grosse Werte wie der Median.

—  Mindestens 50% der Merkmalsträger haben grössere Werte als oder 
 gleich grosse Werte wie der Median. 

Md = \(x _{({n+1 \over2})}\) für n ungerade 

Md \({1\over 2} (x_{({n \over 2})} + x_{({n \over 2}+1)})\) für n gerade

Eigenschaften Median:

Die Summe der Abweichungsbeträge aller Messwerte vom Median ist kleiner als die Summe der Abweichungsbeträge von irgend einem anderen Wert 

Arithmetisches Mittel:

> Das arithmetische Mittel wird üblicherweise mit M, Mx oder 
 x(quer) bezeichnet.

> Das arithmetische Mittel ist gleich der Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen

 

Beispiel:

5 6 8 100

x = 1 ⋅(5 + 6 + 8 + 100) = 119 = 29,75 44 

Arithmetisches Mittel wenn Merkmalsausprägung mehrmals vorkommt:

- siehe Formel

Eigenschaften Arithmetisches Mittel:

  • Die Summe der Abweichungen aller Messwerte vom Mittelwert beträgt stets 0
  • Die Summe der quadrierten Abweichungen der Messwerte vom Mittelwert ist stets kleiner als die Summe der quadrierten Abweichungen von irgendeinem anderen Wert: 
  • Wird zu jedem Messwert xm eine additive Konstante a addiert, verändert sich auch das arithmetische Mittel additiv um diese Konstante

  • Aus der dritten und vierten Eigenschaft folgt, dass sich die 
 lineare Transformation von metrischen Skalen auf den 
 Mittelwert in gleicher Weise auswirkt wie auf jeden 
 einzelnen Messwert

Modus-Median-Mittlewert:

 

  • Der Modus ist in der Regel leicht zu erfassen und gibt einen guten ersten Überblick einer Verteilung. Nicht sinnvoll bei bi- und multimodalen Verteilungen
  • Der Median repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Absolutabweichung.
  • Das arithmetische Mittel repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Quadrate.

—  ... ist bei symmetrischen unimodalen Verteilungen am aussagekräftigsten, 


bei schiefen Verteilungen dagegen weniger aussagekräftig.

—  ... reagiert sehr sensitiv auf extreme Werte und sollte, wenn extreme Werte vorliegen, nur sehr vorsichtig interpretiert werden.

—  Falls extreme Werte („Ausreisser“, „outlier“) vorhanden sind, repräsentiert der Median die Lage der Verteilung meist angemessener, z.B. beim Einkommen: 

GAM:

Gewogenes Arithmetisches Mittel

Mittelwerte aus mehreren Messwertreihen mitteln, die aus einer unterschiedlichen Anzahl von Objekten (n) bestehen 

Robuste Lagemasse (Definition):

Robuste Kennwerte wurden entwickelt, um die Probleme, die durch Ausreisserwerte verursacht werden können, zu beheben 

Robuste Lagemasse (Arten):

  • δ-getrimmtes Mittel  
  • δ-winsorisiertes Mittel 

getrimmtes Mittel:

bestimmte Anzahl der kleinsten und grössten Werte werden entfernt und das arithmetische Mittel der verbleibenden Werte wird bestimmt

–  z.B. werden beim δ = 0,05-getrimmten Mittel 5 % der kleinsten sowie 5 % dergros̈stenWerteentfernt

–  wenn n * δ keine ganze Zahl ergibt wird das Ergebnis abgerundet und die entsprechende Anzahl von Werten am unteren und am oberen Ende der Verteilung entfernt

– Beispiel mit δ = 0,20: 10 Studierendenjobs, Monatslohn in CHF
 160; 200; 200; 400; 440; 720; 760; 800; 820; 5000


0,20 * 10 = 2 --> 2 Werte oben und unten entfernen 

winsorisiertes Mittel:

Extremwerte werden nicht wie beim getrimmten Mittel entfernt, sondern auf einen bestimmten Wert festgelegt

–  Die unteren Extremwerte werden dabei auf den niedrigsten »gezählten« 
 (d. h. nicht entfernten) Wert gesetzt; die oberen Extremwerte werden auf denhoc̈hsten»gezaḧlten«Wertgesetzt

–  die Berechnung der Anzahl der gleichzusetzenden Werte entspricht derjenigen beim getrimmten Mittel

–  Beispiel mit δ = 0,20: 10 Studierendenjobs, Monatslohn in CHF
 160; 200; 200; 400; 440; 720; 760; 800; 820; 5000


0,20*10=2 


--> 2 Werte oben und unten dem jeweils letzten »gezählten« gleichsetzen 

p-Quantil:

Wert xp (0 < p < 1), für den gilt, dass mindestens ein Anteil 

p · 100% der Daten kleiner oder gleich xp und mindestens ein


Anteil (1 – p) · 100% der Daten grösser oder gleich xp ist 

Berechnung von xp gleich wie für den Median / die Quartile:

xp =xq falls n·p keine ganze Zahl ist (q ist die nächste ganze Zahl, die auf n · p folgt)

xp =0,5∙(xq+xq+1) falls n·p eine ganze Zahl ist (q=n·p

Streubereich:

  • Wertebereich, in dem alle beobachteten Werte liegen: SB = [xmin; xmax

Variationsbreite:

v = xmax - xmin 

Semiquartilsabstand:

SQA = IQA/2 

Kleiner Inter-/Semiquartilsabstand:

geringe Streuung im mittleren Bereich der Verteilung 

empirische Varianz:

arithmetisches Mittel der quadrierten Abweichungen 
 der Messwerte vom Mittelwert (mittlere quadratische Abweichung) 

s2x

empirische Standardabweichung:

Quadratwurzel aus der Varianz

sx

Eigenschaften von Varianz und Standardabweichung:

1.  Reagieren empfindlich auf Ausreisser und Extremwerte


(durch die Quadrierung fallen grosse Differenzen stärker ins Gewicht)

2.  Addition einer Konstanten zu den Messwerten ändert die Varianz und Standardabweichung nicht

3.  Multiplikation der Messwerte mit einer Konstanten b führt zu einer Erhöhung der Varianz um den Faktor b2 und zu einer Erhöhung der Standardabweichung um den Faktor des Betrages von b

Variationskoeffizient:

Vx

Masstabsunabhängiges Streuungsmass, das die Standardabweichung am Mittelwert standardisiert 

  • Zum Vergleich unterschiedlicher Streuungen, wenn Streuung vom Mittelwert abhängt

  • Insbesondere bei verhältnisskalierten Variablen geeignet, da Ähnlichkeits- transformation (ym = b * xm) sich auf Standardabweichung und Mittelwert mit dem gleichen Faktorbetrag (b) auswirkt 

Stichprobenvarianz und Stichprobenstandardabweichung:

>  Werden zur Schätzung der Varianz und Standardabweichung in der Population herangezogen

>  Sind häufig Voreinstellungen bei Computerprogrammen (z.B. SPSS) 

σˆ 2

σˆx