Statistik

Statistik für Psychologie

Statistik für Psychologie


Kartei Details

Karten 87
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 31.01.2018 / 01.02.2025
Weblink
https://card2brain.ch/box/20180131_statistik
Einbinden
<iframe src="https://card2brain.ch/box/20180131_statistik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wozu dienen Häufigkeiten?

Beschreibung von Daten

         -> Absolute Häufigkeiten:

                  Bei a1, ..., aj, ..., ak

                  nj=n(aj)

         -> relative Häufigkeiten:

                  hj=h(aj)=nj/n

Was ist eine Häufigkeitsverteilung?

Die Menge der Paare von Merkmalsausprägungen und Besetzungshäufigkeiten wird als Häufigkeitsverteilung bezeichnet. (=alle Häufigkeiten zusammen)

Welche Möglichkeiten der Darstellung gibt es?

Tabellarisch

Graphisch (Säulendiagramme/Balkendiagramme)

Welchen Einfluss haben die Eigenschaften der Variablen auf die Darstellung?

Nominalskalierte Merkmale

         -> Kreisdiagramme, Stab-, Säulen- und Balkendiagramme

         -> Balken grenzen nicht anneinander, Anordnung ist beliebig

Ordinalskalierte Merkmale

         -> Stab-, Säulen- und Balkendiagramme

         -> Balken grenzen nicht aneinander, Ordnung auf der Abszisse ist festgelegt

Mindestens intervallskalierte Merkmale

-> Säulendiagramme, bei denen die Balken direkt aneinander angrenzen (Histogramm)

Was ist die empirische Verteilungsfunktion?

Wie viele Personen in einer Stichprobe haben einen Messwert, der kleiner oder gleich einem bestimmten Wert ist?

Kumulierte Häufigkeiten

         -> Absolute kumulierte Häufigkeit

                  knj = kn(aj) = n(X ≤ aj) = Σᵏj=1 nj

        

-> Relative kumulierte Häufigkeit

         khj = kh(aj) = h(X ≤ aj) = Σᵏj=1 nj /n

Ordinalskalenniveau nötig

Wozu dienen Kennwerte?

Drücken jeweils eine bestimmte Eigenschaft einer Verteilung in einer einzigen Zahl aus

Welche Lage- und Streuungsmaße gibt es?

Lagemaße -> Zentrale Tendenz – Welches ist ein repräsentativer Wert für eine Verteilung

  • Arithmetisches Mittel (Mittelwert = Strich über x)
  • Median/Quantile
  • Modalwert (der Wert der am häufigsten vorkommt)

Streuungsmaße -> Wie breit oder eng ist eine Verteilung?

  • Standardabweichung (√Varianz = s)
  • Varianz (s ²)
  • Interquartilabstand (QA)

Wieso verwendet man Lage- und Streuungsmaße meist zusammen?

Um eine Verteilung hinreichend zu charakterisieren. Lage- und Streuungsmaße sagen nur zusammen etwas über die tatsächliche Häufigkeitsverteilung aus.

Wie lassen sich Lage- und Streuungsmaße zusammen darstellen?

Grafische Darstellung

         -> Box-(Whisker-)plot

         -> Fehlerbalken

Wozu wird standardisiert?

Kennwerte auf Intervallskalenniveau, sind von der gewählten Einheit abhängig. -> Einfluss auf das Ergebnis -> Standardisierung sinnvoll

Wozu dienen Zusammenhangsmaße?

Geben in einer einzelnen Zahl die Richtung und die Stärke eines Zusammenhangs (einer bestimmten Form) zwischen zwei Variablen an.

Welche Zusammenhangsmaße gibt es?

Produkt-Moment-Korrelation        -        intervall x intervall

Phi-Koeffizient                              -        nominal x nominal

Kendalls Tau,                               -        ordinal x ordinal

Spearmans Rangkorrelation

Welche Beziehung besteht zwischen der Produkt-Moment-Korrelation und der z-Standardisierung?

Die Produkt-Moment-Korrelation entspricht dem mittleren Kreuzprodukt der z-Werte

Welche Verzerrungen sind bei der Produkt-Moment-Korrelation zu beachten?

Ausreißerwerte

Einschränkung der Variabilität

Zusammenfassung heterogener Stichproben

 

Daher vor der Berechnung:

Streudiagramm

Univariate Statistiken

Konfundierende Variablen

Auf welcher Logik basiert der Phi-Koeffizient?

  • Ein Zusammenhangsmaß für zwei dichotome nominalskalierte Variablen
  • Chi-Quadrat, wobei die Stichprobengröße beachtet wird
  • \(\sqrt{\frac{χ^2}{N}}\)

 

Was ist die Logik von Rangkorrelationkoeffizienten?

Zusammenhangsmaße, die die Korrelation zwischen zwei mindestens ordinalskalierten Variablen bestimmen.

Kandells Tau

Tabelle anfertigen Daten nach Variable X ordnen und auszählen wie oft Variable Y damit übereinstimmt.

Spearmans Rangkorrelation

Wie Kandells Tau, aber mit Differenz

Größere Differenz -> kleinere Korrelation

Was ist der Zweck der Regression?

Vorhersage der Werte einer Variablen durch die Werte einer anderen Variablen.

Berechnung von vorhergesagten Werten für das Kriterium auf Grundlage des Prädiktors

Welche Bedeutung haben die Regressionskoeffizienten in der linearen Regression?

Misst den Einfluss einer Variable X auf die „Zielvariable“ Y. Einfluss = die quantitative Veränderung von Y, wenn sich X um eine Einheit ändert.

Bei linearem Regressionsmodell, ist diese Veränderung immer gleich, egal welches Niveau X aufweist.

Nach welchen Kriterien werden die Regressionskoeffizienten bestimmt?

QSFehler(ayx,byx) = Σni=1 e2i = Σni=1(yi – ŷi)² = Σni=1[yi – (ayx + byx * xi)] ² min

         Nullstellen der 1. Ableitung partiell differenziert nach byx  und ayx

         2. Ableitung für die Nullstellen positiv

Welche Bedeutung hat die Produkt-Moment-Korrelation in der Regression?

Richtung des Zusammenhangs

Einfluss auf das Regressionsgewicht

Wie kann man die Güte einer Regression bestimmen?

Varianzzerlegung -> Zerlegung der Gesamtvarianz des Kriteriums in vorhergesagte und nicht vorhergesagt Anteile

Wichtig: Erst quadrieren, dann aufsummieren! Sonst ergeben die Summen immer Null

Wieso benötigt man die Wahrscheinlichkeitstheorie für Statistik?

(Psychologische)Forschung richtet sich auf die Überprüfung von Theorien bzw. den daraus abgeleiteten Hypothesen. Dies sind Aussagen über Populationen. Daraus zieht man eine Stichprobe zur Überprüfung der Hypothese. Dies ist nur eine zufällige Auswahl von n Elementen.

Was ist ein Zufallsexperiment, was ein Ereignis?

Zufallsexperiment

  • Ein klar definierter Vorgang führt zu einem klar definierten Ausgang

Ereignis

  • Teilmenge des Ergebnisraums

Welche Ereignisse gibt es?

Elementarereignis -> Teilmenge, die nur aus einem Element besteht

Sicheres Ereignis (Ω)  -> beinhaltet den Ergebnisraum bzw. alle möglichen Elementarereignisse und muss daher in jedem Fall eintreten

Unmögliches Ereignis(ø) -> beinhaltet kein einziges Elementarereignis und kann daher in keinem Fall eintreten

Komplementärereignis (¬A)-> Ereignis, das alle Elementarereignisse aus Ω enthält, die nicht in A sind

Disjunkte Ereignisse -> Ereignisse, die nicht gemeinsam eintreten können

Was besagt das schwache Gesetz der großen Zahlen?

Wird ein Zufallsexperiment n mal unter denselben Bedingungen und unabhängig voneinander wiederholt, dann gilt:

Die relative Häufigkeit des Auftretens von Ereignis (A) nähert sich der Wahrscheinlichkeit des Ereignisses (A) an, wenn die Anzahl der Wiederholungen gegen unendlich geht.

Der Mittelwert näher sich dem Erwartungswert an.

Was bedeutet stochastische Unabhängigkeit?

Wenn das Eintreten des einen Ereignisses keinen Einfluss auf die Wahrscheinlichkeit des anderen Ereignisses hat.

Was ist eine Zufallsvariable und welche Typen unterscheidet man warum?

Abbildung des Ereignisraums in den Zahlenraum

Jedem Elementarereignis wird eine Zahl xi zugeordnet.

Elementarereignisse, die in einem Ereignis vereint werden, erhalten die selbe Zahl

Elementarereignisse, die in disjunkten Ereignissen enthalten sind, erhalten unterschiedliche Zahlen

Ggf. Abbildung weiterer Relationen

Unterscheidung zwischen der Variable an sich (groß X) und einer einzelnen Ausprägung (klein x)

Diskrete Zufallsvariable

  • abgestuft
  • Die Anzahl der Ausprägungen ist endlich (oder abzählbar unendlich)

Kontinuierliche Zufallsvariable

  • stetig
  • Die Anzahl der Ausprägungen ist unendlich

Was ist die Stichprobenverteilung?

„Bindeglied“ zwischen Stichprobenergebnissen und Schlüssen auf Populationsparameter

Gibt an mit welcher Wahrscheinlichkeit bei gegebener Anzahl an Wiederholungen des Zufallsexperiments (Stichprobengröße) und gegebenem Populationsparameter (hypothetisch) und i.d.R. unter bestimmten Annahmen bezüglich der Populationsverteilung, welche Ergebnisse der Stichprobe z.B. relative Häufigkeit einer bestimmten Ausprägung oder der Mittelwert der gemessenen Ausprägung zu erwarten sind.

Was ist ein Erwartungswert?

Der Wert, den man auf lange Sicht, d.h. bei unendlich oft durchgeführten Zufallsziehungen erwarten kann

Bei einer Binominalverteilung für die Anzahl der Erfolge

E = n*p

Für den Anteil

E = n*p/n = p

(E = Anzahl der „Treffer“; n = Anzahl an Zufallsvariablen; p = Wahrscheinlichkeit für Treffer)

Welche mathematischen Gesetze bzw. beobachtbaren Gesetzmäßigkeiten sind in der Inferenzstatistik von entscheidender Bedeutung und wozu sind diese nützlich?

Das schwache Gesetz der Großen Zahlen

Mit steigendem Stichprobenumfang wird die Wahrscheinlichkeit groß, dass ein empirischer Wert nahe am theoretischen Wert liegt und klein, dass ein empirischer Wert vom theoretischen Wert weit entfernt liegt.

Was ist ein Fehler erster Art?

α-Fehler

Irrtumswahrscheinlichkeit -> Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist.

Bestimmt das Kriterium, ab dem ein Ergebnis als signifikant bezeichnet wird -> meistens entweder 5% oder 1%

Was ist ein Fehler zweiter Art?

β-Fehler

Wahrscheinlichkeit, die Alternativhypothese abzulehnen, obwohl sie richtig ist.

Was ist die Überschreitungswahrscheinlichkeit?

Plausibilität

Wenn p sehr klein ist(≤ α), ist das Ergebnis wahrscheinlich kein Zufall -> statistisch bedeutsam -> signifikant -> H wird verworfen

p > α -> H1 wird verworfen

p-Wert -> p(X extremer als Daten | H)

Die bedingte Wahrscheinlichkeit für ein Ergebnis oder ein noch extremeres, unter der Bedingung, dass die Nullhypothese zutrifft.

Was ist Signifikanz?

Basiert auf der Stichprobenverteilung -> Die bedingte Wahrscheinlichkeit des Stichprobenergebnisses gegeben die Nullhypothese stimmt.

Überprüfung, ob der gefundene Stichprobenwert bei gegebener Annahme der Nullhypothese plausibel ist.

Vergleich von α und p oder Vergleich der Prüfgröße und dem kritischem Wert. (Nutzung der z-Tabelle)

In der Praxis meist:

  1. Keine Verhaltensinterpretation von α und β; α ist meist auf 5% oder 1% festgelegt (Fisher)
  2. Alternativhypothesen werden aber meist beschrieben (Neyman-Pearson)
  3. Bei nicht-signifikanten Ergebnissen können keine Aussagen getroffen werden (Fisher)
  4. Teststärkenberechnung aber meist Thema (Neyman-Pearson)
  5. Sternchenstrategie: * p < .05; ** p < .01; *** p < .001

Was ist Teststärke?

Power -> Die Wahrscheinlichkeit, die Alternativhypothese anzunehmen, gegeben sie ist richtig (1-β)

Sprich: Die Wahrscheinlichkeit, den angenommenen Effekt zu entdecken

Nimmt zu bei… (gegeben die anderen Faktoren sind konstant)

  1. größeren festgelegte Größe von α
  2. größerer Differenz der Populationswerte
  3. kleinerer Standardabweichung der Populationsverteilung
  4. zunehmender Stichprobengröße

Was ist Poweranalyse?

Berechnungen, du zusätzlich zum einfachen Signifikanztest durchgeführt werden können und sollten.

Soll die Ausgangsbedingungen manipulieren bzw. sie bestimmen.

Ermöglicht

  1. den Fehler zweiter Art bzw. die Teststärke einer gegebenen Untersuchung zu bestimmen
  2. eine optimale Testung im Sinne eines Kompromisses zwischen Fehler erster und zweiter Art durchzuführen
  3. im Vorfeld einer Untersuchung den optimalen Stichprobenumfang zu bestimmen

Was machen Neyman und Pearson anders als Fisher?

Fisher:

  1. Festlegung vom α-Fehler/Irrtumswahrscheinlichkeit à 5% oder 1%
  2. Z-Stadardisierung à Transformation der Ergebnisse in die Standardnormalverteilung , um das rechnen zu erleichtern
  3. Vergleich von α und p
  4. Wenn α ≥ p ist das Ergebnis signifikant -> Die Alternativhypothese wird angenommen

Neyman und Pearson:

  1. Formuliere eine Nullhypothese
  2. Formuliere eine Alternativhypothese
  3. Entscheide dich für die Größe von α und β, wäge die relative Wichtigkeit von α und β ab und konstruiere aufgrund der daraus ermittelten Stichprobengröße die entsprechenden Stichprobenverteilungen
  4. Prüfe, ob der p-Wert, die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner/gleich α ist
  5. Wenn der p-Wert ≤ α ist, dann ist das Ergebnis des Tests signifikant, ansonsten ist es nicht signifikant
  6. Wenn das Ergebnis signifikant ist, verhalte dich so, als ob die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so, als wenn die Nullhypothese zuträfe

Unterschiede:

  1. Einschätzung über Wahrscheinlichkeit eines signifikanten Ergebnisses, gegeben, es gibt einen systematische Effekt
  2. Möglichkeit der Interpretation nicht-signifikanter Ergebnisse
  3. Poweranalysen

Wie sollte man p-Werte interpretieren und wie nicht?

p-Wert = Die bedingte Wahrscheinlichkeit für ein Ergebnis oder ein noch extremeres, unter der Bedingung, dass die Nullhypothese zutrifft

p-Wert ≠ Indikator für Effektgrößen

p-Wert ≠ Einschätzung über Richtigkeit der Null- oder Alternativhypothese

         -> Funktion der Ergebnisse nicht der Hypothesen!

p-Wert ≠ Irrtumswahrscheinlichkeit

p-Wert ≠ Abschätzung der Wahrscheinlichkeit, dass ein Ergebnis replizierbar ist

Was versteht man unter einem Konfidenzintervall?

Eine Schätzung desjenigen Populationswertes, der dem gezogenen Stichprobenwert zu Grunde gelegen hat.

Vertrauensintervall

Schätzt den Populationswert ausgehend vom Stichprobenwert

So breit, dass der Populationswert mit einer bestimmten Wahrscheinlichkeit in ihm enthalten ist

Ist die Populationsverteilung einer Zufallsvariable bekannt, so folgt aus dem Zentralen Grenzwertsatz, dass die Summe aus n unabhängigen Zufallsvariablen mit σ/ n normalverteil um den Erwartungswert streut

  •  Bildung eines Intervalls um den Populationswert, in welches mit einer bestimmten Wahrscheinlichkeit ein möglicher Stichprobenwert fällt.

= dem Wahrscheinlichkeitsintervall mit einer Ausnahme:

  •  Anstatt des Populationswertes ist der Stichprobenwert der Ausgangspunkt
  •  Für den Stichprobenwert gilt der Zentrale Grenzwertsatz nicht!

Wie lautet die korrekte Interpretation eines Konfidenzintervalls?

Egal ob bekannt oder unbekannt, es wird angenommen, dass es einen festen Populationswert gibt

Für ein unbestimmtes Intervall gilt daher zwar die Aussage, dass der Populationsmittelwert mit 1-α enthalten ist, für ein bestimmtes (mit festen Grenzen) aber nicht!