Statistik 1

Sta1 Kap 1-9

Sta1 Kap 1-9

Sarah Klopfenstein

Sarah Klopfenstein

Fichier Détails

Cartes-fiches 38
Langue Deutsch
Catégorie Finances
Niveau Université
Crée / Actualisé 21.05.2015 / 06.06.2024
Lien de web
https://card2brain.ch/box/statistik_12
Intégrer
<iframe src="https://card2brain.ch/box/statistik_12/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

IF-Funktion

Sum-Funktion

countif(price,279)

countif(location,"Chicago")

countif(mileage,?>30000) 26

countif(mileage,300>?>400)

sumif(mileage) 124032

ifFN-Funktion

mit count und sum

mehrere Listen zählen

gender {"M","F", "M","M","M"}

ifFn(gender="M",1,_)         {1,_,1,1,1}

ifFn(gender="M",age,gender)        {29,"F",26,23,29}

count(ifFn(price=27995,1,_))        3

sum(ifFn(type="xi",mileage,_))      737289

count(ifFn(location="Chicago"and mileage>30000,1,_))

delvoid(ifFn(location="Chicago",price,_)      {23987,29995,27995}

 

 

 

Modus und Median

Der Modus: einer kategoriellen Variablen ist diejenige Kategorie, die am häufigsten vorkommt. Wert der am Häufigsten kommt. Es können mehrere Modi vorkommen! Der Höhepunkt der Grafik heisst Modi

Median: einer ordinalen Variablen ist die mittlere Beobachtung. Funktioniert nur mit numerischen Variablen. Der "Median" ist der Wert, der genau "in der Mitte" der Datenliste steht, nachdem wir die Daten aufsteigend sortiert haben. 50. Percentil

Ist n ungerade, dann ist die mittlere Beobachtung eindeutig.

Ist n gerade, so gibt es zwei milltere Beobachtungen. Der Median ist dann das arithmetische Mittel dieser beiden Werte.

1;1;2;4; [4; 5]; 6;7;8;8 -> 4.5

 

Mittelwert bzw. arithmetisches Mittel

Das arithmetische Mittel von numerischen Daten ist gleich der Summe aller Werte, geteilt durch die Anzahl Werte.

sum(size)/count(size) = mean(size) = stat.x

Varianz

Die Varianz ist ein Streuungsmaß, welches die Verteilung von Werten um den Mittelwert kennzeichnet. Sie ist das Quadrat der Standardabweichung. Die Varianz ist die mittlere quadratische Abweichung vom Mittelwert.

varSamp(size)

sum((size-mean(size))^2)/(count(size)-1)

Standardabweichung

Die Standardabweichung ist die Quadradwurzel der Varianz.

Wurzel(varSamp(size)

stDevSamp(size)

stat.sx

Variationskoeffizient

Der

 

 

Variationskoeffizient ist ein relatives Streumass. Er misst die Streuung relativ zum Mittelwert.

cv=s/y = stDevSamp(apfel)/(mean(apfel))

 

Wenn cv > 1, dann haben die Daten grosse Streuung.

Wenn cv nahe bei 0, dann haben die Daten relativ kleine Streuung. Mittelwet ziemlich genau.

 

Bimodale Verteilung

Grafik weist zwei Modi -> Zwei höhepunkte

z.b. Grafik wo Geschlechter eine Rolle spielen.

z-Score

\(z =(y - y)/ s\)(zweites Y mit strich oben)

z=(apfel-mean(apfel))/ stDevSamp(apfel)

Die z-Scores sind eine Standardisierung, so dass das der Mittelwert 0 und die Standardabweichung 1 ist.

Standardisierung ist z. B. notwendig, um unterschiedlich verteilte Zufallsvariablen miteinander vergleichen zu können

Schiefe

Bild

Kurtosis oder Wölbung

Bild

Spannweiter oder Range

Die Spannweite ist die Differenz zwischen dem grössten und dem kleinsten Wert:

Spannweite = Max - Min

8 10 13 25 37 39 47 -> 39

Probleme:

  • Die Spannweite hängt nur von 2 Werten ab.
  • Ausreisser beeinflussen die Spannweite stark.

Quartile

bild

Inderquatilsabstand

Bild

Boxplots

Fünf-Punkte-Zusammenfassung:

min(size); median(size); max(size); stat.q3x-stat.q1x; stat.maxx-stat.minx

-> stat.results

Die empirische Regel für glockenförmige Verteilungen

Bild

Chi-Quadrat-Koeffizient =x^2

  • Wie gross ist der Zusammenhang zwischen zwei Variablen
  • Je grösser Chi, desto stärker der Zusammenhang

Cramer's V

Chi-Koeffiziente von verschiedenen Datensätzen können nicht verglichen werden.

Chi-Koeffiziente sind abhängig von der Anzahl Beobachtungen.

\(x = \sqrt{(x^2)/n*min(k-1,l-1)}\)

Bandbreite von V ist 0 (klein) - 1 (Stark)

Kovarianz

Die Kovarianz ist eine nichtstandardisierte Maßzahl für den (linearen) Zusammenhang zweier statistischer Variablen. Diese ist eine erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit mittels einer Stichprobe.

Ist die Kovarianz positiv, dann gehen kleine Werte der einen Variable überwiegend einher mit kleinen Werten der anderen Variable und gleichfalls für große Werte. Für eine negative Kovarianz ist das genau umgekehrt.

sum((hdd-mean(hdd))*(gas-mean(gas)))/count(hdd)-1)

Korrelation r

Wie stark ist der Zusammenhang? Die Maßzahlen der Korrelation liegen betragsmäßig meist in einem Bereich von Null (=kein Zusammenhang) bis Eins (=starker Zusammenhang).

Falls möglich, welche Richtung hat der Zusammenhang?

Ein Beispiel für eine positive Korrelation (wenn mehr, dann mehr) ist: „Mehr Futter, dickere Kühe.“ Ein Beispiel für eine negative Korrelation (wenn mehr, dann weniger) ist: „Mehr zurückgelegte Strecke mit dem Auto, weniger Treibstoff im Tank.“

Es gilt: -1 kleinergleich r kleinergleich +1

Schätzgerade - Korrelationsmatrix

Die Korrelatinosmatrix gibt die paarweise Korrelation von numerischen Variablen an.

corrMat(hdd,gas,sqft) -> Matrix

Checkliste Kovarianz und Korrelation

I

 

 

Numerische Variable: Der Korrelationskoeffizient ist ein

Zusammenhangsmass für quantitative Daten.

Keine Störvariable: Streudiagramme und Korrelation

zeigen nur Zusammenhänge, keine Kausalitäten.

Linear: Der Korrelationskoeffizient misst den linearen

Zusammenhang.

Ausreisser: Ausreisser können den

Korrelationskoeffizienten empfindlich beeinflussen.

Grundregeln der Wahrscheinlichkeit

  1. P(S)= 1
  2. Für jedes Ereignis A gilt: 0<=P(A)<=1
  3. Sind die Ereignisse A und B disjunkt, dann: P(A oder B)= P(A)+ P(B) (Kreise getrennt)
  4. A hat ein komplemenätre Ereignis -> dann wenn A nicht eintritt. P(Ac ) = 1-P(A)

Additionsregel Wahrscheinlichkeit

Gegeben sind zwei Ereignisse A und B. Die Wahrscheinlichkeit, dass mind. eines dieser Ereignisse eintritt ist:

P(A oder B)= P(A)+P(B)-P(A undB)

Unabhägnige Ereignisse (*-Regel)

Abhängige Ereignisse

Unabhägnige Ereignisse (Eintrittswahrscheinlichkeit eines Ereignisses nicht vom Eintreten des anderen Ereignisses beeinflusst wird. P(AundB)= P(A)*P(B). -> Einfach P multiplizieren.

Abhängige Ereignisse

Kann nicht einfach multipliziert werden.

Inklusion-Exklusion

bild

Bedeutung von Disjunkt

Kreise bzw. Wahrscheinlichkeiten sind getrennz bzw. schneiden sich nicht.

 

Ist die gemeinsame Wahrscheinlchkeit disjunkt, so kann man sie einfach addieren

Bedingte Wahrscheinlichkeit

(wenn Ereignis B eingetreten ist?)

\(P(A|B) = P(A und B)/ P(B)\)

\(P(A|B) nicht gleich P(B|A)\)

Diagnosetest

Wie gross ist die Wahrscheinlichkeit, dass eine positiv getestete Person tatsächlich an Krebs erkrankt ist?

Bild

Bayes' Theorem

Bild

Zufallsvariablen

 

 

  • Eine Zufallsvariable ist eine Funktion, welche jedem Elementarereignis eine reelle Zahl zuordnet.
  • Ist diskret, wenn sie abzählbar viele Werte annehmen kann.
  • Ist stetig, wenn sie überabzählbar unendlich viele Werte annimmt.

Diskerete Zufallsvariablen

p(x)>= 0

∑p(xi)=1; Summe aller P=1

p(X)≤1

Erwartungswert E(X)=µ

E(X)=µ= x1*p(x1)+ x2*P(x2)+ x3*p(x3)+......

Der Erwartungswert muss kein möglicher Wert von X sein. Nach sehr vielen Versuchen strebt der Mittelwert der beobachteten Zufallsvariablen gegen den Erwartungswert

Ist der Erwartunswert positiv, so steigt die 'Aktie'

 

Die Varianz einer Zufallsvariable X

Bild

Berechnung von Erwartungswert und Varianz

Bild

Eigenschaften von Erwartungswert und Varianz

-> Addieren einer Konstanten

B

Eigenschaften von Erwartungswert und Varianz

Multiplizieren einer Konstanten

Bild

Sharpe-Ratio S

  • verschiedene 'Geldanlagen' können verglichen werden
  • X= risikobehaftete Geldanlage; µ Rendite; Ó (Risiko der Rendite). rf = Rendite einer risikolosen Anlage
  • Dann: \(S(X)=µ-rf/Ó\)
  • Je höher S(X), desto besser ist das Investment