Statistik
Statistik für Psychologie
Statistik für Psychologie
Kartei Details
Karten | 87 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 31.01.2018 / 01.02.2025 |
Weblink |
https://card2brain.ch/box/20180131_statistik
|
Einbinden |
<iframe src="https://card2brain.ch/box/20180131_statistik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wozu dienen Häufigkeiten?
Beschreibung von Daten
-> Absolute Häufigkeiten:
Bei a1, ..., aj, ..., ak
nj=n(aj)
-> relative Häufigkeiten:
hj=h(aj)=nj/n
Was ist eine Häufigkeitsverteilung?
Die Menge der Paare von Merkmalsausprägungen und Besetzungshäufigkeiten wird als Häufigkeitsverteilung bezeichnet. (=alle Häufigkeiten zusammen)
Welche Möglichkeiten der Darstellung gibt es?
Tabellarisch
Graphisch (Säulendiagramme/Balkendiagramme)
Welchen Einfluss haben die Eigenschaften der Variablen auf die Darstellung?
Nominalskalierte Merkmale
-> Kreisdiagramme, Stab-, Säulen- und Balkendiagramme
-> Balken grenzen nicht anneinander, Anordnung ist beliebig
Ordinalskalierte Merkmale
-> Stab-, Säulen- und Balkendiagramme
-> Balken grenzen nicht aneinander, Ordnung auf der Abszisse ist festgelegt
Mindestens intervallskalierte Merkmale
-> Säulendiagramme, bei denen die Balken direkt aneinander angrenzen (Histogramm)
Was ist die empirische Verteilungsfunktion?
Wie viele Personen in einer Stichprobe haben einen Messwert, der kleiner oder gleich einem bestimmten Wert ist?
Kumulierte Häufigkeiten
-> Absolute kumulierte Häufigkeit
knj = kn(aj) = n(X ≤ aj) = Σᵏj=1 nj
-> Relative kumulierte Häufigkeit
khj = kh(aj) = h(X ≤ aj) = Σᵏj=1 nj /n
Ordinalskalenniveau nötig
Wozu dienen Kennwerte?
Drücken jeweils eine bestimmte Eigenschaft einer Verteilung in einer einzigen Zahl aus
Welche Lage- und Streuungsmaße gibt es?
Lagemaße -> Zentrale Tendenz – Welches ist ein repräsentativer Wert für eine Verteilung
- Arithmetisches Mittel (Mittelwert = Strich über x)
- Median/Quantile
- Modalwert (der Wert der am häufigsten vorkommt)
Streuungsmaße -> Wie breit oder eng ist eine Verteilung?
- Standardabweichung (√Varianz = s)
- Varianz (s ²)
- Interquartilabstand (QA)
Wieso verwendet man Lage- und Streuungsmaße meist zusammen?
Um eine Verteilung hinreichend zu charakterisieren. Lage- und Streuungsmaße sagen nur zusammen etwas über die tatsächliche Häufigkeitsverteilung aus.
Wie lassen sich Lage- und Streuungsmaße zusammen darstellen?
Grafische Darstellung
-> Box-(Whisker-)plot
-> Fehlerbalken
Wozu wird standardisiert?
Kennwerte auf Intervallskalenniveau, sind von der gewählten Einheit abhängig. -> Einfluss auf das Ergebnis -> Standardisierung sinnvoll
Wozu dienen Zusammenhangsmaße?
Geben in einer einzelnen Zahl die Richtung und die Stärke eines Zusammenhangs (einer bestimmten Form) zwischen zwei Variablen an.
Welche Zusammenhangsmaße gibt es?
Produkt-Moment-Korrelation - intervall x intervall
Phi-Koeffizient - nominal x nominal
Kendalls Tau, - ordinal x ordinal
Spearmans Rangkorrelation
Welche Beziehung besteht zwischen der Produkt-Moment-Korrelation und der z-Standardisierung?
Die Produkt-Moment-Korrelation entspricht dem mittleren Kreuzprodukt der z-Werte
Welche Verzerrungen sind bei der Produkt-Moment-Korrelation zu beachten?
Ausreißerwerte
Einschränkung der Variabilität
Zusammenfassung heterogener Stichproben
Daher vor der Berechnung:
Streudiagramm
Univariate Statistiken
Konfundierende Variablen
Auf welcher Logik basiert der Phi-Koeffizient?
- Ein Zusammenhangsmaß für zwei dichotome nominalskalierte Variablen
- Chi-Quadrat, wobei die Stichprobengröße beachtet wird
- \(\sqrt{\frac{χ^2}{N}}\)
Was ist die Logik von Rangkorrelationkoeffizienten?
Zusammenhangsmaße, die die Korrelation zwischen zwei mindestens ordinalskalierten Variablen bestimmen.
Kandells Tau
Tabelle anfertigen Daten nach Variable X ordnen und auszählen wie oft Variable Y damit übereinstimmt.
Spearmans Rangkorrelation
Wie Kandells Tau, aber mit Differenz
Größere Differenz -> kleinere Korrelation
Was ist der Zweck der Regression?
Vorhersage der Werte einer Variablen durch die Werte einer anderen Variablen.
Berechnung von vorhergesagten Werten für das Kriterium auf Grundlage des Prädiktors
Welche Bedeutung haben die Regressionskoeffizienten in der linearen Regression?
Misst den Einfluss einer Variable X auf die „Zielvariable“ Y. Einfluss = die quantitative Veränderung von Y, wenn sich X um eine Einheit ändert.
Bei linearem Regressionsmodell, ist diese Veränderung immer gleich, egal welches Niveau X aufweist.
Nach welchen Kriterien werden die Regressionskoeffizienten bestimmt?
QSFehler(ayx,byx) = Σni=1 e2i = Σni=1(yi – ŷi)² = Σni=1[yi – (ayx + byx * xi)] ² → min
Nullstellen der 1. Ableitung partiell differenziert nach byx und ayx
2. Ableitung für die Nullstellen positiv
Welche Bedeutung hat die Produkt-Moment-Korrelation in der Regression?
Richtung des Zusammenhangs
Einfluss auf das Regressionsgewicht
Wie kann man die Güte einer Regression bestimmen?
Varianzzerlegung -> Zerlegung der Gesamtvarianz des Kriteriums in vorhergesagte und nicht vorhergesagt Anteile
Wichtig: Erst quadrieren, dann aufsummieren! Sonst ergeben die Summen immer Null
Wieso benötigt man die Wahrscheinlichkeitstheorie für Statistik?
(Psychologische)Forschung richtet sich auf die Überprüfung von Theorien bzw. den daraus abgeleiteten Hypothesen. Dies sind Aussagen über Populationen. Daraus zieht man eine Stichprobe zur Überprüfung der Hypothese. Dies ist nur eine zufällige Auswahl von n Elementen.
Was ist ein Zufallsexperiment, was ein Ereignis?
Zufallsexperiment
- Ein klar definierter Vorgang führt zu einem klar definierten Ausgang
Ereignis
- Teilmenge des Ergebnisraums
Welche Ereignisse gibt es?
Elementarereignis -> Teilmenge, die nur aus einem Element besteht
Sicheres Ereignis (Ω) -> beinhaltet den Ergebnisraum bzw. alle möglichen Elementarereignisse und muss daher in jedem Fall eintreten
Unmögliches Ereignis(ø) -> beinhaltet kein einziges Elementarereignis und kann daher in keinem Fall eintreten
Komplementärereignis (¬A)-> Ereignis, das alle Elementarereignisse aus Ω enthält, die nicht in A sind
Disjunkte Ereignisse -> Ereignisse, die nicht gemeinsam eintreten können
Was besagt das schwache Gesetz der großen Zahlen?
Wird ein Zufallsexperiment n mal unter denselben Bedingungen und unabhängig voneinander wiederholt, dann gilt:
Die relative Häufigkeit des Auftretens von Ereignis (A) nähert sich der Wahrscheinlichkeit des Ereignisses (A) an, wenn die Anzahl der Wiederholungen gegen unendlich geht.
Der Mittelwert näher sich dem Erwartungswert an.
Was bedeutet stochastische Unabhängigkeit?
Wenn das Eintreten des einen Ereignisses keinen Einfluss auf die Wahrscheinlichkeit des anderen Ereignisses hat.
Was ist eine Zufallsvariable und welche Typen unterscheidet man warum?
Abbildung des Ereignisraums in den Zahlenraum
Jedem Elementarereignis wird eine Zahl xi zugeordnet.
Elementarereignisse, die in einem Ereignis vereint werden, erhalten die selbe Zahl
Elementarereignisse, die in disjunkten Ereignissen enthalten sind, erhalten unterschiedliche Zahlen
Ggf. Abbildung weiterer Relationen
Unterscheidung zwischen der Variable an sich (groß X) und einer einzelnen Ausprägung (klein x)
Diskrete Zufallsvariable
- abgestuft
- Die Anzahl der Ausprägungen ist endlich (oder abzählbar unendlich)
Kontinuierliche Zufallsvariable
- stetig
- Die Anzahl der Ausprägungen ist unendlich
Was ist die Stichprobenverteilung?
„Bindeglied“ zwischen Stichprobenergebnissen und Schlüssen auf Populationsparameter
Gibt an mit welcher Wahrscheinlichkeit bei gegebener Anzahl an Wiederholungen des Zufallsexperiments (Stichprobengröße) und gegebenem Populationsparameter (hypothetisch) und i.d.R. unter bestimmten Annahmen bezüglich der Populationsverteilung, welche Ergebnisse der Stichprobe z.B. relative Häufigkeit einer bestimmten Ausprägung oder der Mittelwert der gemessenen Ausprägung zu erwarten sind.
Was ist ein Erwartungswert?
Der Wert, den man auf lange Sicht, d.h. bei unendlich oft durchgeführten Zufallsziehungen erwarten kann
Bei einer Binominalverteilung für die Anzahl der Erfolge
E = n*p
Für den Anteil
E = n*p/n = p
(E = Anzahl der „Treffer“; n = Anzahl an Zufallsvariablen; p = Wahrscheinlichkeit für Treffer)
Welche mathematischen Gesetze bzw. beobachtbaren Gesetzmäßigkeiten sind in der Inferenzstatistik von entscheidender Bedeutung und wozu sind diese nützlich?
Das schwache Gesetz der Großen Zahlen
Mit steigendem Stichprobenumfang wird die Wahrscheinlichkeit groß, dass ein empirischer Wert nahe am theoretischen Wert liegt und klein, dass ein empirischer Wert vom theoretischen Wert weit entfernt liegt.
Was ist ein Fehler erster Art?
α-Fehler
Irrtumswahrscheinlichkeit -> Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist.
Bestimmt das Kriterium, ab dem ein Ergebnis als signifikant bezeichnet wird -> meistens entweder 5% oder 1%
Was ist ein Fehler zweiter Art?
β-Fehler
Wahrscheinlichkeit, die Alternativhypothese abzulehnen, obwohl sie richtig ist.
Was ist die Überschreitungswahrscheinlichkeit?
Plausibilität
Wenn p sehr klein ist(≤ α), ist das Ergebnis wahrscheinlich kein Zufall -> statistisch bedeutsam -> signifikant -> H₀ wird verworfen
p > α -> H1 wird verworfen
p-Wert -> p(X extremer als Daten | H₀)
Die bedingte Wahrscheinlichkeit für ein Ergebnis oder ein noch extremeres, unter der Bedingung, dass die Nullhypothese zutrifft.
Was ist Signifikanz?
Basiert auf der Stichprobenverteilung -> Die bedingte Wahrscheinlichkeit des Stichprobenergebnisses gegeben die Nullhypothese stimmt.
Überprüfung, ob der gefundene Stichprobenwert bei gegebener Annahme der Nullhypothese plausibel ist.
Vergleich von α und p oder Vergleich der Prüfgröße und dem kritischem Wert. (Nutzung der z-Tabelle)
In der Praxis meist:
- Keine Verhaltensinterpretation von α und β; α ist meist auf 5% oder 1% festgelegt (Fisher)
- Alternativhypothesen werden aber meist beschrieben (Neyman-Pearson)
- Bei nicht-signifikanten Ergebnissen können keine Aussagen getroffen werden (Fisher)
- Teststärkenberechnung aber meist Thema (Neyman-Pearson)
- Sternchenstrategie: * p < .05; ** p < .01; *** p < .001
Was ist Teststärke?
Power -> Die Wahrscheinlichkeit, die Alternativhypothese anzunehmen, gegeben sie ist richtig (1-β)
Sprich: Die Wahrscheinlichkeit, den angenommenen Effekt zu entdecken
Nimmt zu bei… (gegeben die anderen Faktoren sind konstant)
- größeren festgelegte Größe von α
- größerer Differenz der Populationswerte
- kleinerer Standardabweichung der Populationsverteilung
- zunehmender Stichprobengröße
Was ist Poweranalyse?
Berechnungen, du zusätzlich zum einfachen Signifikanztest durchgeführt werden können und sollten.
Soll die Ausgangsbedingungen manipulieren bzw. sie bestimmen.
Ermöglicht
- den Fehler zweiter Art bzw. die Teststärke einer gegebenen Untersuchung zu bestimmen
- eine optimale Testung im Sinne eines Kompromisses zwischen Fehler erster und zweiter Art durchzuführen
- im Vorfeld einer Untersuchung den optimalen Stichprobenumfang zu bestimmen
Was machen Neyman und Pearson anders als Fisher?
Fisher:
- Festlegung vom α-Fehler/Irrtumswahrscheinlichkeit à 5% oder 1%
- Z-Stadardisierung à Transformation der Ergebnisse in die Standardnormalverteilung , um das rechnen zu erleichtern
- Vergleich von α und p
- Wenn α ≥ p ist das Ergebnis signifikant -> Die Alternativhypothese wird angenommen
Neyman und Pearson:
- Formuliere eine Nullhypothese
- Formuliere eine Alternativhypothese
- Entscheide dich für die Größe von α und β, wäge die relative Wichtigkeit von α und β ab und konstruiere aufgrund der daraus ermittelten Stichprobengröße die entsprechenden Stichprobenverteilungen
- Prüfe, ob der p-Wert, die Wahrscheinlichkeit des Stichprobenergebnisses unter der Annahme, dass die Nullhypothese zutrifft, größer oder kleiner/gleich α ist
- Wenn der p-Wert ≤ α ist, dann ist das Ergebnis des Tests signifikant, ansonsten ist es nicht signifikant
- Wenn das Ergebnis signifikant ist, verhalte dich so, als ob die Alternativhypothese wahr wäre, wenn es nicht signifikant ist, so, als wenn die Nullhypothese zuträfe
Unterschiede:
- Einschätzung über Wahrscheinlichkeit eines signifikanten Ergebnisses, gegeben, es gibt einen systematische Effekt
- Möglichkeit der Interpretation nicht-signifikanter Ergebnisse
- Poweranalysen
Wie sollte man p-Werte interpretieren und wie nicht?
p-Wert = Die bedingte Wahrscheinlichkeit für ein Ergebnis oder ein noch extremeres, unter der Bedingung, dass die Nullhypothese zutrifft
p-Wert ≠ Indikator für Effektgrößen
p-Wert ≠ Einschätzung über Richtigkeit der Null- oder Alternativhypothese
-> Funktion der Ergebnisse nicht der Hypothesen!
p-Wert ≠ Irrtumswahrscheinlichkeit
p-Wert ≠ Abschätzung der Wahrscheinlichkeit, dass ein Ergebnis replizierbar ist
Was versteht man unter einem Konfidenzintervall?
Eine Schätzung desjenigen Populationswertes, der dem gezogenen Stichprobenwert zu Grunde gelegen hat.
Vertrauensintervall
Schätzt den Populationswert ausgehend vom Stichprobenwert
So breit, dass der Populationswert mit einer bestimmten Wahrscheinlichkeit in ihm enthalten ist
Ist die Populationsverteilung einer Zufallsvariable bekannt, so folgt aus dem Zentralen Grenzwertsatz, dass die Summe aus n unabhängigen Zufallsvariablen mit σ/ √n normalverteil um den Erwartungswert streut
- Bildung eines Intervalls um den Populationswert, in welches mit einer bestimmten Wahrscheinlichkeit ein möglicher Stichprobenwert fällt.
= dem Wahrscheinlichkeitsintervall mit einer Ausnahme:
- Anstatt des Populationswertes ist der Stichprobenwert der Ausgangspunkt
- Für den Stichprobenwert gilt der Zentrale Grenzwertsatz nicht!
Wie lautet die korrekte Interpretation eines Konfidenzintervalls?
Egal ob bekannt oder unbekannt, es wird angenommen, dass es einen festen Populationswert gibt
Für ein unbestimmtes Intervall gilt daher zwar die Aussage, dass der Populationsmittelwert mit 1-α enthalten ist, für ein bestimmtes (mit festen Grenzen) aber nicht!