Angewandte Statistik

Grundlagen zur Erstellung von Statistiken

Grundlagen zur Erstellung von Statistiken

Sira Gorba

Sira Gorba

Kartei Details

Karten 31
Lernende 48
Sprache Deutsch
Kategorie Informatik
Stufe Andere
Erstellt / Aktualisiert 28.01.2014 / 25.10.2024
Weblink
https://card2brain.ch/box/angewandte_statistik1
Einbinden
<iframe src="https://card2brain.ch/box/angewandte_statistik1/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Definition der Grundgesamtheit

Statistische Einheiten sind im Hinblick auf die Fragestellung sachlich, räumlich und zeitlich eingegrenzt

 

Merkmale einer stat. Einheit

Die Eigenschaften der statistischen Einheiten, die untersucht werden sollen, heissen Merkmale. Die stat. Einheiten werden deshalb auch als Merkmalsträger bezeichnet.

Bsp.: bei Buch: Seitenzahlen, Sachgebiet,...

Merkmale werden mit grossen, lat. Buchstaben bezeichnet (X,Y,Z,...)

Mermalsausprägungen: Die Kategorien, die ein MErkmal annehmen kann, heissen merkmalsausprägungen. Bsp.: Geschlecht: m/w

Merkmalsausprägungen werden mit kleinen lateinischen Buchstaben bezeichnet(x1, x2,...)

Nominalskala bzw. nominalskalierte Merkmale

Objekte werden bezüglich einer Eigenschaft in verschieden Kategorien zugeordnet (bsp.. Familienstand, Konfessionsangehörigkeit, Geschlecht)

Die einzelnen Variablen können polytom (Konfession) bzw. dichotom (Geschlecht) sein.

Ordinalskala oder ordinalskalierte Merkmale

Die Skalenwerte können nach kleiner/grösser Relationen unterschieden werden: xi > xj damit offenbart sich eine Rangfolge

Die Skalenwerte können so gewählt werden, dass diese Ordnung erhalten bleibt. Bsp.: Schulnoten, Eiergrösse oder die Rangplätze der Mannschaften

Intervallskala oder intervallskalierte Merkmale

Bei einem Merkmal, welches intervallsakliert ist, lässt isch nicht nur die Rangfolge der einzelnen Objekte, sondern auch der Abstand feststellen und sinnvoll interpretieren. Beispiel: (skalierte) Einstellungsmessungen, religiosität oder die Temperaturmessung in Grad Celsius

Verhältnisskala (Rationalskala)

Merkmale, die einen natürlichen Nullpunkt besitzen bilden eine Verhältnisskala. Dadurch lassen sich nun auch die Verhältnisse der Skalenwerte interpretieren. Beispiel: räumliche Entfernung, Alter oder Einkommen. Jede lineare Funktion ohne Konstante ist erlaubt.

Variable

Ein Merkmal das mindestens zwei Ausprägungen (Realisationen) annehmen kann

> diskrete Variable (diskontinuierliche) endlich viele Ausprägungen

> stetige Variable (kontinuierliche) unendlich viele Zwischenwerte zwischen je zwei merkmalausprägungen

> Übergänge: 

1. diskret > quasistetig (z.B. Geldbeträge)

2. stetig > quasidiskret (z.B. IQ, wenn er in Klassen unterteilt ist)

 

häufigkeitsverteilung

Die deskriptive Statistik stellt Untersuchungsergebnisse nur dar. Sie fasst die einzelnen Messwerte sinnvoll zusammen und errechnet wichtige Kennwerte aus den Rohdaten > Informationsreduktion

Gruppierung von Daten/ Klassenbildung

Merkmale werden bei Erhebung un Klassen eingeteilt (grosser Umfang der Erhebung). Merkmale die sich nur wenig unterscheiden werden in Klassen geordnet. 

Für jede Klasse gibt es eine untere und obere Grenze > Intervallklasse. Stets in gleich grosse Intervallklassen zu unterteilen > Klassenbreite

ABC-Analyse (auch Pareto Verteilung)

Das Ergebnis, die Rangfolge bzw. Klassifikation in der ABC Analyse stellt sich in der Materialwirtschaft wie folgt dar: Je nachdem welcher Bereich der Materialwirtschaft mittles der ABC Analyse untersucht wir, bedeutet:

> A: wichtig/hochwertig/umsatzstarkt

> B: mittlewichtig/mittelwertig/mittlere Umsatzstärke

> C: weniger wihtig/niederwertig/umsatzschwach

mengenmässig kleiner teil hat hohen Wertanteil (A). 

Häufigkeit

Wenn in einer Urliste gleiche Merkmale (oder gleiche Ausprägungen von Merkmalen) vorkommen, kann man deren Häufigkeit bestimmen. Es gibt: absolute Häufigkeit und relative Häufigkeit

Bei der absoluten Häufigkeit ni, werden dieselben Merkmale/Ausprägungen zusammengezählt (absolute Werte). Bei der relativen Häufigkeit hi, wird die absolute Häufigkeit dividiert durch den Umfang n der Erhebung

Kreuztabelle (= Pivot-Tabelle)

Eine Kreuztabelle dient dazu, die kombinierte häufigkeitsverteilung zweier Variablen darzustellen. Sie bildet somit das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall. Erstellen sie beispielsweise eine Häufigkeitstabelle für die Variable Geschlecht, gibt Ihnen die Tabelle an, wie viele Frauen und wie viele Männer in der betrachteten Stichprobe enthalten sind.

Modus (= Modalwert (Mo) = Häufigster Wert = Dichtester Wert)

Der Modus ist jene Merkmalsausprägung, die am häufigsten auftritt, wird auch dichtester Wert genannt (Wert mit der grössten Dichte).

Excel: Funktion Modalwert (....)

Anwendungsbereich: Dieses lagemass ist besonders bei nominalskalierten Werten sinnvoll anzuwenden. Eine sinnvolle Anwendung des Modus setzt eine eingipflige (unimodal) Häufigkeitsverteilung voraus. Nicht sinnvoll ist die ANwendung des Modus auch, wenn die anderen Werte fast genausi häufig vorkommen, die anderen Werte sehr weit entfernt vom Modus liegen oder die Verteilung so extrem rechts- oder linkssteil ist, dass der Modus ein Extremwert ist. Insgesamt enthält der Modus relativ wenig Informationen und kann nicht als Mass der zentralen Tendenz angesehen werden.

Median

Der Median ist ein Lageparameter. beim Median werden die Ausprägungen/Werte in aufsteigender Reihenfolge angeordnet (sortiert). Der Wert, der genau in der Mitte der Reihe liegt, ist der Median. Wenn die Mitte zwischen zwei Werten liegt, wird das arithmetische Mittel dieser beiden Werte verwendet. Man kann sich den median auch al geomertische Mitte einer Zahlenstrecke vorstellen.

Der Median entspricht besser als andere Mittelwertsparameter der Vorstellung von der Mitte einer Verteilung. So bedient man sich z.B. häufig des Medianeinkommes als Referenzgösse, um die Auswirkung von externen Einkommeswerten zu eliminieren.

Anwendungsbereich: Der Median dient der Ermittlung des Minimus der Summe der absoluten Entfernung der Werte voneinander (Minimumseigenschaft).

Quantile > Median, Quartile, Percentile

Der Median ist das 2 Quartil oder auch das 50. Percentil. Das heisst, es liegen immer 50 % aller Werte Links vom Median und 50 % rechts davon. 

Man kann auch noch weitere prozentuale Unterteilungen vornehmen, die häufigste sind die Quartile > 25% bzw. 75%.

Durchschnitt Arithmetisches Mittel

 

Meistens benutzt man das arithmetische Mittel zur Angabe des Durchschnittes (sofern nicht besondere Gründe dagegen sprechen).

Def.: Das arithmetische Mittel ist die Summe aller Messwerte, welche durch deren Anzahl N geteilt wird (der Durchschnitt)

Das arithmetische Mittel (Durchschnitt) ist ein Lageparameter, der wie folgt berechnet wird: Alle Werte werden addiert und die Summe wird durch die Anzahl der Werte dividiert.

Geometrisches Mittel

Manchmal interessiert man sich für relative Änderungen als Merkmalsausprägungen. Beim geometrischen mittel wird aus dem produkt der Merkmalswerte die Wurzel mit dem Wurzelexponenten n gezogen.

> Vorallem Durchschnittswert bei Wachstumsprzessen (bsp. Bevölkerungswachstum)

Streuungsparameter : Lineare Streuung (Durchschnittliche Abweichung)

dei der linearen Streuung wird der durchschnittliche Abstand der Merkmalswerte zu einem Mittelwert berechnet - d.h. alle Einzelwerte gehen mit in die berechnung ein. Da für arithmetische Mittel die Schwerpuntkeigenschaft gilt (die SUmme aller Differenzen zum arithmetischen Mittel ist gleich Null), wird hier mit Bträgen (absiluten Abweichungen) gerechnet. 

> selten verwendet

Varianz und Standardabweichung

Die Varianz ist ein Streuungsparameter. Sie gibt an, in welchem Mass die Ausprägung eines Merkmals sich vom Durchschnitt entfernt. 

Von jedem Einzelwert wird also der Durchschnittswert subrtahiert. Damit sich positive und negative Abweichungen nicht gegenseitig aufheben, wird von der Differenuz das Quadrat gebildet.

Diese Quadrate werden simmiert und durch den Umfang der Urliste (Erhebung) dividiert. Man erhält einen Quadratwerd, der Varianz heisst.

Je grösser die Varianz verglichen mit dem Artihm. Mittel, desto stärker sind die ABweichungen der einzelnen Messwerte von diesem.

Zieht man aus der Varianz die Quadratwurzel erhält man die Standardabweichung.

Konzentration

Verdichtung, Schwerpunktbildung, Ballung oder Ungleichverteilung

Absolute und Relative Konzentration

> absolute Konzentration liegt vor, wenn ein grosser Teil der Objekteinheiten (Merkmalssumme) auf wenige Merkmalsträger entfällt d.h. die ANzahl der Trägereinheiten ist ausschlaggebend. Bsp.: Die drei grössten Schweizer Nahnhöfe sind Basel, Zürich und Genf. Sie hatten einen Jahresumschlag von 91 Mio. Tonnen, das sind etwa zwei Drittel des Umschlages aller Schweizer Bahnhöfe.

> bei relativer Konzentration entfällt ein Grossteil der Merkmalssumme auf einen geringen Prozentanteil der Merkmalsträger. Bsp.: In der Schweiz sind im Jahr 1999 80% der gesmaten Einkommenssteuer von 20 % der Steuerpflichtigen erbracht worden.

Statische und dynamische Konzentration

> Meistens bezieht sich der Konzentrationsbegriff auf eine gegebene Verteilung, d.h. es wird die Konzentration eines Bestandes untersucht (statische Konzentration). Bsp.: Die Textilindustrie der Schweiz ist stark konzentriert.

> Unter dynamsicher Konzentration dagegen versteht man die zunehmende Konzentration des Bestandes im Zeitablauf, d.h. also einen Konzentrationsprozess. Bsp.: Zwischen 1960 und 1980 war die Textielidnustrie der Schweiz einer starken Konzentration unterworfen.

Regressionsanalyse

Die regressionsanalyse ist ein Verfahren in der Statistik, welhces die Abhängigkeit von Variablen zueinander untersucht, sog. dependenzanalytisches Verfahren.

> Abhängigkeiten von Variablen zueinander

> Berechnung einer Regressionsfunktion > durchschnittlicher Zusammenhang

> Erklärung und Prognose der Werte

> Variablen müssen intervallskaliert sein.