Statistik 3
Deskriptivstatistik für metrische Variablen
Deskriptivstatistik für metrische Variablen
Fichier Détails
Cartes-fiches | 41 |
---|---|
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 07.01.2016 / 03.01.2023 |
Lien de web |
https://card2brain.ch/box/statistik_31
|
Intégrer |
<iframe src="https://card2brain.ch/box/statistik_31/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
metrische Variablen:
Intervall-, Verhältnis- und Absolutskala
primäre Häufigkeitsverteilungen:
etnsteht aus der Urliste: gruppierte und geordnete Auflistung aller Messwerte
sekundäre Häufigkeitsverteilung:
> Ausgehend von der primären Häufigkeits- verteilung werden Kategorien gebildet und unter diesen werden die Messwerte zusammengefasst
> Kategorienbildung mehr oder weniger willkürlich (meistens 10-20 Kategorien)
> Faustregel zur Bestimmung der Anzahl Kategorien: \(\sqrt{k}\)
(k: Anzahl Merkmausausprägungen)
> Kategoriengrenzen (cj und cj-1) werden so definiert, dass sie genau zwischen dem grössten und dem kleinsten Messwert benachbarter Kategorien liegen
z.B. für die 1. Kategorie: c1 (Obergrenze) = 34,5 c0 (Untergrenze) = 29,5
Histogramm:
Unterscheidet sich vom Säulendiagramm dadurch, dass die Breite der Säulen interpretierbar ist (da auf Zahlenstrahl angeordnet und Abstand zwischen Zahlen bei metrischen Variablen bedeutsam)
Polygonzug:
- Die Mitten der Kategorien werden miteinander verbunden
- Sinnvoll bei kontinuierlichen Variablen (z.B. Reaktionszeit)
--> bringt den kontinuierlichen Charakter des Merkmals zum Ausdruck
wichtige Beschreibunsmerkmale von Verteilungsformen:
- Symmetrie vs. Asymmetrie
- Gipfelform (Schiefe und Wölbung) und Gipfelzahl
Besonderheit symmetrischer Verteilungen:
links und rechts (spiegelverkehrt) von einem bestimmten Wert identisch
Besonderheit asymmetrische Verteilungen:
Schwerpunkt ist verschoben
- Linksgipflig / linkssteil / rechtsschief
- Rechtsgipflig / rechtssteil / linksschief
breitgipflig:
Verteilungen mit vielen Werten um den Modalwert
schmalgipflig oder steilgipflig:
Verteilungen mit wenig Werten um den Modalwert
Verteilungen nach Gipfelzahl:
- Unimodal
- Bimodal
- Multimodal
weitere Verteilungen, die nicht auf einem Haufen basieren:
U-förmige, umgekehrt U-förmige, V-, L- oder J-förmige Verteilungen
Interquartilsabstand:
Breite der Box im Box- und Whiykers-Diagramm
(Abstand Unteres Quantil und oberes Quantil)
Ausreisser Wert:
nicht im Q1/3 + 1.5 x IQA Whiskers, aber im Q1/3 + 3 x IQA Whiskers
Extremwert:
nichtmehr im Q1/3 + 3 x IQA Whiskers
Stamm-Blatt-Diagramm:
Auszug aus einer sortierten Urliste von Reaktionszeiten (n = 88):
1,347 1,401 1,487 2,299 ... 6,453 6,728
Stem-and-Leaf Plot
Frequency
3,00 15,00 25,00 28,00 12,00
5,00 Stem width:
Each leaf:
Stem & Leaf
1 | 344
2 | 246666678899999
3 | 0001111233333344555688889
4 | 0011111122223334445556777888 5 | 001233334457
6 | 23447
1,00
1 case(s)
Stem width:
gibt die Breite einer Klasse (eines Intervalls) an
Modalwert/Modus:
> Messwert, der für die am häufigsten besetzte Merkmalsausprägung steht
> Bei sehr vielen möglichen Merkmalsausprägungen (kontinuierliche Variablen), macht diese Definition wenig Sinn, da eine hohe Wahrscheinlichkeit besteht, dass alle Ausprägungen nur einmal vorkommen
- in diesem Fall schaut man im Histogramm, welches die Kategorie ist, die am häufigsten besetzt ist; per Definition ist die Mitte dieser Kategorie der Modus
--> Gipfel eines Polygonzugs markiert somit (bei unimodalen Verteilungen) den Modus
Median:
> Definition und Berechnung gleich wie bei ordinalskalierten Daten
> Median (Md): Wert, der eine Reihe geordneter Beobachtungswerte in zwei
annähernd gleich grosse Teile teilt
— Mindestens 50% der Merkmalsträger haben kleinere Werte als oder gleich grosse Werte wie der Median.
— Mindestens 50% der Merkmalsträger haben grössere Werte als oder gleich grosse Werte wie der Median.
Md = \(x _{({n+1 \over2})}\) für n ungerade
Md = \({1\over 2} (x_{({n \over 2})} + x_{({n \over 2}+1)})\) für n gerade
Eigenschaften Median:
Die Summe der Abweichungsbeträge aller Messwerte vom Median ist kleiner als die Summe der Abweichungsbeträge von irgend einem anderen Wert
Arithmetisches Mittel:
> Das arithmetische Mittel wird üblicherweise mit M, Mx oder x(quer) bezeichnet.
> Das arithmetische Mittel ist gleich der Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen
Beispiel:
5 6 8 100
x = 1 ⋅(5 + 6 + 8 + 100) = 119 = 29,75 44
Arithmetisches Mittel wenn Merkmalsausprägung mehrmals vorkommt:
- siehe Formel
Eigenschaften Arithmetisches Mittel:
- Die Summe der Abweichungen aller Messwerte vom Mittelwert beträgt stets 0
- Die Summe der quadrierten Abweichungen der Messwerte vom Mittelwert ist stets kleiner als die Summe der quadrierten Abweichungen von irgendeinem anderen Wert:
Wird zu jedem Messwert xm eine additive Konstante a addiert, verändert sich auch das arithmetische Mittel additiv um diese Konstante
Aus der dritten und vierten Eigenschaft folgt, dass sich die lineare Transformation von metrischen Skalen auf den Mittelwert in gleicher Weise auswirkt wie auf jeden einzelnen Messwert
Modus-Median-Mittlewert:
- Der Modus ist in der Regel leicht zu erfassen und gibt einen guten ersten Überblick einer Verteilung. Nicht sinnvoll bei bi- und multimodalen Verteilungen
- Der Median repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Absolutabweichung.
- Das arithmetische Mittel repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Quadrate.
— ... ist bei symmetrischen unimodalen Verteilungen am aussagekräftigsten,
bei schiefen Verteilungen dagegen weniger aussagekräftig.
— ... reagiert sehr sensitiv auf extreme Werte und sollte, wenn extreme Werte vorliegen, nur sehr vorsichtig interpretiert werden.
— Falls extreme Werte („Ausreisser“, „outlier“) vorhanden sind, repräsentiert der Median die Lage der Verteilung meist angemessener, z.B. beim Einkommen:
GAM:
Gewogenes Arithmetisches Mittel
Mittelwerte aus mehreren Messwertreihen mitteln, die aus einer unterschiedlichen Anzahl von Objekten (n) bestehen
Robuste Lagemasse (Definition):
Robuste Kennwerte wurden entwickelt, um die Probleme, die durch Ausreisserwerte verursacht werden können, zu beheben
Robuste Lagemasse (Arten):
- δ-getrimmtes Mittel
- δ-winsorisiertes Mittel
getrimmtes Mittel:
bestimmte Anzahl der kleinsten und grössten Werte werden entfernt und das arithmetische Mittel der verbleibenden Werte wird bestimmt
– z.B. werden beim δ = 0,05-getrimmten Mittel 5 % der kleinsten sowie 5 % dergros̈stenWerteentfernt
– wenn n * δ keine ganze Zahl ergibt wird das Ergebnis abgerundet und die entsprechende Anzahl von Werten am unteren und am oberen Ende der Verteilung entfernt
– Beispiel mit δ = 0,20: 10 Studierendenjobs, Monatslohn in CHF 160; 200; 200; 400; 440; 720; 760; 800; 820; 5000
0,20 * 10 = 2 --> 2 Werte oben und unten entfernen
winsorisiertes Mittel:
Extremwerte werden nicht wie beim getrimmten Mittel entfernt, sondern auf einen bestimmten Wert festgelegt
– Die unteren Extremwerte werden dabei auf den niedrigsten »gezählten« (d. h. nicht entfernten) Wert gesetzt; die oberen Extremwerte werden auf denhoc̈hsten»gezaḧlten«Wertgesetzt
– die Berechnung der Anzahl der gleichzusetzenden Werte entspricht derjenigen beim getrimmten Mittel
– Beispiel mit δ = 0,20: 10 Studierendenjobs, Monatslohn in CHF 160; 200; 200; 400; 440; 720; 760; 800; 820; 5000
0,20*10=2
--> 2 Werte oben und unten dem jeweils letzten »gezählten« gleichsetzen
p-Quantil:
Wert xp (0 < p < 1), für den gilt, dass mindestens ein Anteil
p · 100% der Daten kleiner oder gleich xp und mindestens ein
Anteil (1 – p) · 100% der Daten grösser oder gleich xp ist
Berechnung von xp gleich wie für den Median / die Quartile:
xp =xq falls n·p keine ganze Zahl ist (q ist die nächste ganze Zahl, die auf n · p folgt)
xp =0,5∙(xq+xq+1) falls n·p eine ganze Zahl ist (q=n·p)
Streubereich:
Wertebereich, in dem alle beobachteten Werte liegen: SB = [xmin; xmax]
Variationsbreite:
v = xmax - xmin
Semiquartilsabstand:
SQA = IQA/2
Kleiner Inter-/Semiquartilsabstand:
geringe Streuung im mittleren Bereich der Verteilung
empirische Varianz:
arithmetisches Mittel der quadrierten Abweichungen der Messwerte vom Mittelwert (mittlere quadratische Abweichung)
s2x
empirische Standardabweichung:
Quadratwurzel aus der Varianz
sx
Eigenschaften von Varianz und Standardabweichung:
1. Reagieren empfindlich auf Ausreisser und Extremwerte
(durch die Quadrierung fallen grosse Differenzen stärker ins Gewicht)
2. Addition einer Konstanten zu den Messwerten ändert die Varianz und Standardabweichung nicht
3. Multiplikation der Messwerte mit einer Konstanten b führt zu einer Erhöhung der Varianz um den Faktor b2 und zu einer Erhöhung der Standardabweichung um den Faktor des Betrages von b
Variationskoeffizient:
Vx
Masstabsunabhängiges Streuungsmass, das die Standardabweichung am Mittelwert standardisiert
Zum Vergleich unterschiedlicher Streuungen, wenn Streuung vom Mittelwert abhängt
Insbesondere bei verhältnisskalierten Variablen geeignet, da Ähnlichkeits- transformation (ym = b * xm) sich auf Standardabweichung und Mittelwert mit dem gleichen Faktorbetrag (b) auswirkt
Stichprobenvarianz und Stichprobenstandardabweichung:
> Werden zur Schätzung der Varianz und Standardabweichung in der Population herangezogen
> Sind häufig Voreinstellungen bei Computerprogrammen (z.B. SPSS)
σˆ 2x
σˆx