Methoden
Psychologie Uni Würzburg Methoden Vorlesung SS und WS
Psychologie Uni Würzburg Methoden Vorlesung SS und WS
Kartei Details
Karten | 274 |
---|---|
Lernende | 28 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 10.01.2021 / 07.06.2025 |
Weblink |
https://card2brain.ch/box/20210110_methoden
|
Einbinden |
<iframe src="https://card2brain.ch/box/20210110_methoden/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Welche Selektionsfehler können beim Messen entstehen?
Wie die Selektion bestimmter Maßnahmen bzw. Werte(bereiche) die Ergebnisse determinieren können
- Abweichungen von Linearität (Zusammenhang zweier Variablen nicht linear aber fälschlicherweise als solcher abgebildet durch Messverfahren)
- Ausreißer (vor allem bei kleiner Stichprobe; durch quadrierte Abweichungen stark gewichtet)
- Unterbrochene Verteilung (bspw. Extremgruppen überschätzen einen Zusammenhang)
- Einschränkung des Wertebereichs (Unterschätzung eines Effekts)
- Heterogene Unterstichproben (bilden nur Teil der GG ab)
Was sind Beispiele für wichtige Versuchsplan-Typen?
- zwei unabhängige Versuchsgruppen (interindividuelles Design; Experimental und Kontrollgruppe, 2 UVs)
- zwei Gruppen mit Vorhermessung (inter- und intraindividuelle Messung (mixed), T1 AV = Vorhermessung, T2 UV, T3 AV= Nachhermessung; Kontrolle SV, Ausmaß der Veränderung, aber: Kosten, Auswirkungen auf Nachhermessung?)
- unifaktorielle Pläne mit mehr als zwei Gruppen (1 UV, aber mehr als 2 Auspräungen)
- multifaktorielle Pläne mit mehr als zwei Gruppen (mehrere UVn; Vorteil: mehrere UVn in einem Experiment untersuchbar--> Frage nach Interaktion; Haupteffekte und EInfache Haupteffekte)
- Parallelgruppendesign (unabhängige Versuchsgruppen; "Paare" mit ähnlichem Merkmal auf versch. Gruppen aufgeteilt; SV Kontrolle bzgl. Probandenmerkmalen)
- Pläne mit Messwiederholung (abhängige Messungen; jede Person wird unter allen Bedingungen getestet--> intraindividuell; ökonomischer, weniger Einfluss interindividueller Unterschiede, aber: Sequenzeffekte, zeitlich aufwändiger)
Was sind X-O-Pläne? Und warum können sie problematisch für die Schematisierung von Versuchsplänen sein?
X= Treatment; O = Observation (Messung AVn)
Bsp.: The one-grup pretest-posttest design:
O1 X O2
aber: die zwei allein reichen meistens nicht zur Schematisierung von Versuchsplänen
--> PBn meistens hunderte Treatments (trials) in randomisierter Reihenfolge (repeated measure design)
Welche prozeduralen Entscheidungen muss man bei der Versuchsplan-Erstellung treffen?
1. Anzahl UVn (uni- vs. multifaktoriell)
2. Ab 2-Faktoren: wie viele Bedingungskombis (vollständig gekreuzt, hierarchisch)
3. Ab 2 Faktoren: Anzahl Beobachtungen pro Bedingungen (identisch vs. verschieden)
4. Art der Bedingungsvariation für jede UV(inter- vs. intraindividuell)
5. Art der Zuweisung Pbn auf Bedingungen (randomisiert, eingeschränkt randomisiert, nicht randomisiert)
6. Anzahl AVn (uni- vs. multivariat)
Was sind die Hauptgefahren von Störvariablen?
Kann zur Scheinfalsifikation oder Scheinbestätigung einer Hypothese führen
Was beschreibt die Ceteris Paribus (CP-) Validität?
= Resultat der Kontrolle von Störvariablen --> Interne Valdität
ceteris paribus: "unter sonst gleichen Umständen" (alles außer UV bleibt gleich)
Was besagt das MaxKonMin-Prinzip?
"Varianz-Analyse"
1 MAXimiere Primärvarianz (= „den (vermuteten) Effekt“)
--> Extremgruppen wählen, "optimale" Stufen der UV wählen, Rauschen-verursachenden Faktor in Uv umwandeln
2 KONtrolliere Sekundärvarianz (= Störvariablen)
--> Randomisierung, Blockbildung/ Parallelisierung, Messwiederholung, SV in Uv umwandeln, Kovarianzanalyse nachträglich
3 MINimiere Fehlervarianz (= das unsystematische „Rauschen“)
--> Messwdh/ Blockdesign, Standardisierung, Reliabilität erhöhen
1&3 erhöhen statistische Power, 2 wichtig für Gültigkeit der Schlussfolgerung
Was sind potentielle Quellen von Störvariablen?
- Probanden (traits oder states, die Einfluss auf AV haben)
- Situation (Versuchsleiter, Aufbau, Reaktivität der Messung, physikalische Umgebung, Tageszeit, Anforderungen)
- Messwiederholung (Sequenz- / Positionseffekte, Carry-over Effekte)
Was sind Kontrolltechniken für Probanden als Quelle der SV?
- Randomisierung
- Vortest
- Parallelisierung/Blockdesign (mittels Vortest)
- Homogenisierung (Gruppen mit homogenen Merkmalen)
- systematische Variation (SV als Faktor im Versuchsplan)
- Wechsel zu intraindividuellem Design
Was sind Kontrolltechniken für die Situation als Quelle der SV?
- Elimination
- Konstanthalten
- Zufallsvariation
- systematische Variation
bei sozialer Situation (Bsp.: VL-Erwartungseffekt, VP-Effekte):
Standardisierung, VL-Elimination/ Training, Kontrollgruppe, (Doppel)-Blindversuch
Was sind mögliche Kontrolltechniken bei Messwiederholung als Quelle der SV?
- Einführung Kontrollgruppe
- extrem häufige, randomisierte Bedingungsabfolgen
- Wechsel zu interindividueller Variation
- Ausbalancieren
- spezifische Messwiederholungs-Versuchspläne (Zeitreihenversuchsplan, Einzelfall-Versuchsplan mit Revision)
- post-hoc Kontrolle (Kovarianzanalyse)
- Quasi-Experimente (argumentative Kontrolle)
Was ist das lateinische Quadrat?
Methode beim Ausbalancieren (Kontrolle der SV bei Messwiederholungen)
ABCD, BDAC, CADB, DCBA
– jede Bedingung ist genau einmal an jeder Position
– jede mögliche Abfolge zweier Bedingungen taucht genau einmal auf (AB, BA, BD, DB ...)
– anstelle der vollständigen Bedingungspermutation (alle 24 Bedingungen --> n!) reichen vier Gruppen, um Sequenzeffekte weitgehend zu kontrollieren
Was sind carry-over-Effekte? (SV-Kontrolle bei Messwiederholung)
asymmetrische Sequenzeffekte
d.h. Effekte, bei denen eine Bedingung inhaltlich die nachfolgende beeinflusst (nicht bloß aufgrund ihrer Position): Daher nicht durch Ausbalancieren zu beheben!
Bsp.: - UV: Aufgabenschwierigkeit (sehr leicht / sehr schwer) - AV: Problemlösegeschwindigkeit - erst schwer, dann leicht führt evtl. dazu, dass Probanden glauben, dass bei den leichten Aufgaben eine „Tücke“ lauert: kann zu längeren Bearbeitungszeiten führen
mögl. Lösungen: interindividueller Plan, feste Reihenfolge
Was sind der Zeitreihenversuchsplan und der Einzelfall-Versuchsplan mit Revision?
Zeitreihenversuchsplan:
mehrere AV-Messzeitpunkte vor und nach UV-Applizierung (z.B. O O O O X O O O O)
Wirkung der UV sicherer isolierbar (= bessere SV-Kontrolle)
Einzelfall-Versuchsplan mit Revision:
z.B. ABAB-Plan (A: keine Behandlung, B: Behandlung)
AV sollte entsprechend variieren
Revision bietet bessere SV-Kontrolle
Wie kann man mit der Kovarianzanalyse post-hoc SV kontrollieren?
Herausrechnen (genauer: „auspartialisieren“) einer SV mittels einer Regressionsanalyse, dann statistische Analyse der auf diese Weise korrigierten Daten (diese korrigierten Daten heißen dann „Residuen“)
Damit kann man den Einfluss einer UV ohne den Einfluss der potentiellen SV berechnen
Wie kann man bei Quasi-Experimenten SVn kontrollieren?
keine Randomisierung möglich (z.B. bei organismischen UVn Geschlecht, Alter ...)
„Argumentative“ Kontrolle: für jede denkbare SV muss ausgeschlossen werden (Argumente/empirische Belege), dass sie für Effekte auf die AV verantwortlich sein könnte
Welchen Zweck haben Power-Analysen?
statistische Verfahren zur Bestimmung eines Mindestumfangs von Stichproben, um mit festgelegter Wahrscheinlichkeit einen bestimmten Effekt nachweisen zu können (freie Software: G*Power)
Welche Arten von Stichproben gibt es?
Quotenstichprobe (Auswahl nach Quote)
Geschichtete Stichprobe (Zufallsauswahl aus jeweiliger Population)
Klumpenstichprobe (innerhalb der Klimpen = vollständige SP)
Einzelfall (Bsp. in kognitiver Neuropsychologie)
Was besagt die „small samples are unreliable“-fallacy?
Ist ein statistisch signifikantes Resultat (z.B. p = .01) bei einer kleinen Stichprobe (z.B. n = 8) eher zufällig zustande gekommen als eines mit gleichem p-Wert bei großer Stichprobe (z.B. n = 1000)? Antwort: Nein! Die Wahrscheinlichkeit p ist schließlich gleich und die unterschiedliche Stichprobengröße bei der Berechnung von p bereits berücksichtigt! --> fallacy nicht wahr!!!
(es muss aber schon ein großer Effekt vorhanden sein, wenn man ihn mit einer kleinen Stichprobe als signifikant aufdeckt!)
Welche Aspekte sollte man bei der Versuchsdurchführung beachten?
Durchführungsobjektivität durch Standardisierung!
- Ablauf (z.B. Vorexperimente, Fragebögen, Pausen)
- Betreuung der Pbn (von der Anwerbung bis zur Aufklärung)
- Räumlichkeiten (Temperatur, Licht, ggf. Vermeidung von Informationsaustausch der Pbn untereinander)
- Hilfsmittel & Geräte (Computerbedienung, Datenaufzeichnung / -sicherung, „Plan B“ bei Problemen?)
- Instruktion (Eindeutigkeit, Einfachheit, Verständnischeck)
Was ist das grobe Vorgehen bei einer statistischen Auswertung?
- nachvollziehbares und begründetes Festlegen von Ausreißerwerten (Outlier)/nicht verwendbaren Daten
- Prüfung der statistischen Hypothese anhand des geeigneten gewählten Verfahrens: Annahme oder Verwerfung? -> Berücksichtigung von Signifikanz & Effektgröße!
- Auswertungsalternativen?
- Subjektivität statistischer Tests beachten
- SORGFALT
Was bedeutet Inferenz in der Statistik?
– ursprünglich: „hineintragen“ (lat. „in-ferre“)
– heute: schlussfolgern (zweiwertiges Prädikat: von ... auf ...)
– hier: von Stichprobe auf Population
Was ist die Zufallsannahme (H0)?
Stichprobenkennwert nur durch unsystematischen Zufall zustande gekommen (Effekt also nicht nachgewiesen)
Was ist die Annahme H1?
Annahme eines systematischen Effekts (H1): Wenn Stichprobenkennwert zu extrem, um noch „guten Gewissens“ mit dem Zufall vereinbar zu sein (Effekt vorhanden)
Was wären Beispiele für Stichprobenkennwerte?
- z.B. ein Häufigkeitsverhältnis: 5 Männer : 15 Frauen
- z.B. einen Mittelwert: Mittlerer Stress-Score bei Studierenden = 1000
- z.B. eine Mittelwertsveränderung: Stress in einer Stichprobe nach Intervention im Mittel um ca. 1,7 Punkte geringer geworden
Was beschreibt die Stichprobenkennwerteverteilung?
Wahrscheinlichkeitsverteilung für einen Stichprobenkennwert, wenn die Zufallsannahme wahr ist
- z.B. bei zwei Münzwürfen ist die Wkt., dass nie Kopf kommt = 1/4, dass 1x Kopf kommt = 1/2 & dass 2x Kopf kommt = 1/4
- wird bei Verwendung in Tests auch Testverteilung genannt
Was ist der Ablehnungsbereich in der Statistik?
Bereich der (z.B. 5%) unwahrscheinlichsten (extremsten) Stichprobenkennwerte unter Zufallsannahme: Liegt ein Stichprobenkennwert im Ablehnungsbereich, wird die Zufallsannahme abgelehnt, und damit bewährt sich die Annahme eines systematischen Effekts
... und weil man in statistischen Dingen stets irren kann, spricht man bei Ablehnung der H0 typischerweise von „Hypothesenbewährung“, nie von „-beweis“!
Was ist die Logik hinter statistischem Testen? (Mit H0, H1 etc.)
Wie wahrscheinlich ist das zufällige Zustandekommen eines Stichprobenkennwerts? Wenn wenig wahrscheinlich --> dann auch nicht zufällig!
Gehört der Stichprobenkennwert in den Bereich sehr unwahrscheinlicher Ereignisse unter Zufallsannahme, dann liegt wohl kein Zufall vor
Welche Bedeutung hat die Stichprobenkennwerteverteilung?
Sie besagt, wo der Bereich unwahrscheinlicher Ereignisse unter Zufallsannahme liegt
Bsp.: Binomialverteilung (Verteilung für Häufigkeiten eines Ereignisses bei zwei Ereignisalternativen („bi-nomial“))
Wie sieht die Formel der Binomialfunktion aus?
Bn,p (k)= (n_über_k) x p_hoch_k x (1-p)_hoch_n-k
n_über_k = n!/ (k! x (n-k)!)
n= Anzahl der Ziehungen, k = Anzahl der Ereignisse, p =Wkeit
Normalverteilung als guter Schätzer für Binomialverteilung!
Was besagt der p-Wert?
Der besagt, wie wahrscheinlich unter Zufallsannahme das Auftreten eines Stichprobenkennwertes
- z.B. eine bestimmte standardisierte mittlere Veränderung (t-Test für abhängige Messungen)
- z.B. eine bestimmte standardisierte Mittelwertsdifferenz (t-Test für 2 Stichproben)
oder ein noch extremerer Wert zu erwarten wäre.
wenn p< alpha (bsp. 5%) --> signifikanter Effekt
Binomialverteilung: Wie funktioniert die Martingale oder Verlustprogression?
Problem: Wie gewinne ich mit ca. 95% Wahrscheinlichkeit im Casino 10 €? (95% entspricht ungefähr der Alpha-Wkeit)
Lösung:
1: Im ersten Durchgang mit Eingangsbetrag anfangen (10 €),
2a: wenn gewonnen: nach Hause gehen, sonst
2b: im 2. Durchgang doppelten Betrag setzen (20€)
3: genauso weiterverfahren (schlimmstenfalls im 5. Durchgang 160€ setzen und beten...)
Nachteil: Interaktion von drei Variablen: Gewinnwahrscheinlichkeit [96,89%], Gewinnhöhe [10 Euro], aber leider auch: Maximalrisiko [310 Euro]; Bei unendlich vielen Durchgängen: Nullsummenspiel (wenn das Casino nicht an der grünen „0“ verdienen würde...)
Wie funktioniert Bootstrapping/ resampling?
Bootstrapping = aus den eigenen Stichprobendaten durch künstliche, immer neu gezogene Stichprobenzusammenstellung (Resampling) eine Testverteilung (hier: der Mittelwertsdifferenzen) basteln ODER durch Testverteilung aller möglichen SP-Zusammenstellungen (Permutationstests)
Bsp.: Zwei Gruppen mit je 5 Probanden erhalten verschiedene Therapien (A & B) Danach wird ihre Befindlichkeit getestet (größere Zahl = besser); Frage: ist Therapie B besser?
Methode: alle 10 Werte in einen Hut werfen; möglichst oft zufällig die Werte auf zwei Gruppen aufteilen (oder alle möglichen Anordnungen erstellen = Permutationstest) und jeweils die Mittelwertsdifferenz berechnen (zur Erstellung einer Stichprobenkennwerteverteilung: Abtragen, mit welcher relativen Häufigkeit welche Mittelwertsdifferenz vorkommt)
-->Gehört die konkrete Mittelwertsdifferenz (= 1,2) zu den 5% extremsten (= unwahrscheinlichsten) Mittelwertsdifferenzen unter Zufallsannahme
Was ist das Prinzip/ Vorgehen statistischen Testens beim NHST (null hypothesis significance testing)?
1. Aufstellen einer Arbeitshypothese
2. Aufstellen der Nullhypothese (H0) bzw. Zufallshypothese
3. Konstruktion der Verteilung der entsprechenden Statistik unter der Annahme der H0
4. Daten sammeln
5. Vergleich der Stichprobenstatistik mit der Verteilung aus (3.)
6. Ablehnen oder Beibehalten der H0, abhängig von der Wahrscheinlichkeit des Auftretens der Stichprobenstatistik (oder einer noch extremeren) unter Annahme der H0
7a. Wenn H0 (Zufallsannahme) abgelehnt, ist die Arbeitshypothese durch die Stichprobe bestätigt worden
7b. Wenn H0 beibehalten, enthält man sich des Urteils
Was ist der Unterschied zwischen NHST und dem Bayesianischen Testen?
NHST: null hypothesis significance testing --> "Wie wahrscheinlich ist das Auftreten eines Stichprobenkennwerts unter Zufallsannahme?“
Bayesianisch: „Wie wahrscheinlich ist eine (konkrete) Hypothese wahr auf der Basis eines Datenmusters/Stichprobenkennwerts?“
-->Typischerweise hat eine Hypothese eine bestimmte Wahrscheinlichkeit bereits vor der Untersuchung (prior probability, muss subjektiv bestimmt werden), die sich dann angesichts der Daten eines Experiments verändert (und so zur posterior probability wird)
-->Auch gut geeignet, um zwei konkurrierende Modelle/Hypothesen gegeneinander „antreten“ zu lassen
- Testen auf versch. Skalenniveaus (Nominal bei Binomial vs. Intervall bei anderen)
- Unterschiedliche Konstruktion der Testverteilung
Was sind relevante Schritte zur Erstellung einer Metaanalyse?
- Sammeln und Kategorisieren von (unabhängigen) Experimenten/Studien (u.a. nach relevanten Versuchsbedingungen, Güte des Versuchsplans…)
- Bestimmung von Stichprobengröße und Effektgröße
- Einbezug von Studien, die keinen Effekt gefunden haben
- Errechnung einer „Über-Alles“-Effektgröße (inkl. Signifikanztest)
- File-drawer Problem/ Publication bias--> signifikante Studien werden oft selektiv berichtet, nicht signifikante werden oft nicht inkludiert
- Garbage-in-garbage-out-Problem --> wie viel taugen einzelne Studien?
- Apples-Oranges Problem --> kann man Studien miteinander vergleichen?
Welche Levels of evidence gibt es?
- Level I Evidence from a systematic review of meta-analysis of all relevant randomized controlled trials (RCTs) or: Evidence based clinical practice guidelines based on systematic reviews of RCT’s
- Level II Evidence obtained from at least one properly designed randomized control trial (= echtes Experiment)
- Level III Evidence obtained from well-designed controlled trials without randomization
- Level IV Evidence obtained from well designed case control and cohort studies
- Level V Evidence from systematic reviews of descriptive and qualitative studies (meta-synthesis)
- Level VI Evidence from a single descriptive or qualitative study
- Level VII Evidence from opinion of authorities and/or reports of expert committees
Terminologie ANOVA: was ist ein Faktor, was eine Stufe?
Faktor = UV, Stufe = Ausprägung
Was ist der Unterschied zw. ANOVA und t-Test?
T-Tests: praktisch zum Vergleich von zwei (unabhängigen) Stichproben
ANOVA: kann mehr als 2 SP vergleichen + die Wirkung von 2 Variablen gleichzeitig bestimmen