Cartes mémoires Statistik (Seite 9 von 10)

Cartes-fiches	387
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	08.07.2023 / 20.07.2023
Lien de web	https://card2brain.ch/box/20230708_methoden_statistik
Intégrer	<iframe src="https://card2brain.ch/box/20230708_methoden_statistik/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist keine zentrale Frage bei der Konkretisierung der Fragestellung?

Welche Frage soll ganz konkret untersucht werden?

Welche Hypothesen gibt es zu unserer Frage?

Wie definieren wir Konstrukte und wovon Grenzen wir sie ab?

Nach welchen Kriterien suchen wir nach Primärstudien?

Welches Signifikanzniveau soll in den Primärstudien gegeben sein?

Was trifft nicht auf das Äpfel-und-Birnen-Problem zu?

Viele Aspekte von Primärstudien (z.B. Definitionen, Methoden, SP) sind sehr heterogen.

Problem konkurrierender Definitionen von Begriffen und Konstrukten.

Problem sehr unterschiedlicher methodischer Zugänge.

Als Lösungsstrategie könnte man die Fragestellung basierend auf der Generalisierungsabsicht festlegen und den größten gemeinsamen Faktor der Operationalisierung in Primärstudien finden.

Was trifft nicht auf das Garbage-in-Garbage-out-Problem (Rote-Socken-Problem) zu?

Qualität von Metaanalysen ist abhängig von Qualität der eingeschlossenen Primärstudien.

Eine einzelne schlechte Studie kann aber nicht die Qualität der ganzen Metaanalyse reduzieren.

Als Lösungsstrategie sollten klare Auswahlkriterien gewählt werden und alle Schritte klar dokumentiert und begründet werden.

Als Lösungsstrategie kann die methodische Qualität aller Studien klar kodiert werden, sie kann als Moderatorvariable getestet werden und es kann für sie kontrolliert werden.

Was trifft auf die Wahl von Auswahlkriterien nicht zu?

Inhaltliche Konstrukte können ein Auswahlkriterium sein.

Methodische Merkmale können ein Auswahlkriterium sein.

Unabhängige Finanzierung kann ein Auswahlkriterium sein.

Falls z.B. Publikationssprache ein Auswahlkriterium ist, so muss dies nicht zwingend dokumentiert werden, da ja selbstverständlich ist, dass man nicht Studien in allen Sprachen untersuchen kann.

Nenne drei „Orte“, wo man Primärstudien finden kann.

Literaturdatenbanken (PsychINFO, Medline, Web of Science, google scholar...),
in bereits vorliegende Reviews und Metaanalysen,
in den Literaturlisten bereits identifizierter Studien,
Datenbanken von „Review“-Organisationen (z.B. Cochrane, Campbell-Collaboration, fachübergreifende Akademien (Leopoldina), wissenschaftliche Vereinigungen),
Monographien (Dissertationen, Masterarbeiten),
durch Kontaktaufnahme zu einschlägigen Wissenschaftler*innen im Feld

Was ist keine Herausforderung bei der Suche nach Primärstudien?

Status-Quo-Bias: Forschende halten an veralteten Methoden fest, weil sie diese als „besser“ empfinden und eben solche Studien werden dann von Journals wahrscheinlicher publiziert.

Publication Bias: Hypothesenkonforme Forschungsergebnisse haben eine höhere Publikationswahrscheinlichkeit.

Es ist schwierig, ältere Forschungsarbeiten, fremdsprachige Forschungsarbeiten oder von Studierenden durchgeführte Forschungsarbeiten zu beschaffen.

Lösungen sind, Wissenschaftler anzuschreiben und die Literatursuche (in den Metaanalysen) detailliert zu dokumentieren.

Was ist kein Schritt bei der Kodierung von Studien und Ergebnissen?

Festlegung von Analyse-Ebenen und Analyse-Einheit

Erstellung eines detaillierten Kodierplans und Dokumentation von Merkmalen und Kriterien

Training der Kodierer und Prüfung der Kodierungsvalidität

Ziel ist die Schaffung einer einheitlichen Auswertungsbasis unter Einfluss relevanter Beurteilungs- und Integrationsaspekte

Nenne die vier Kodiermerkmale?

1. Merkmale der Intervention/Manipulation (Art, Setting...)

2. Stichprobe/Klientel (Alter, Geschlecht...)

3. Method. Merkmale (Design, Dropout Rate...)

4. Ergebnisse (MW, Streuung...)

--> Anzahl und Art der Kodierungen abhängig von inhaltl. Interessen! Welche Moderatoren sollen untersucht werden? Kodierung steuert nachfolgende Auswertungen!

Was ist keine zentrale Herausforderung bei Metaanalysen?

Uneinheitlich verwendete Begriffe und Konstrukte

Große inhaltliche und methodische Variabilität zwischen Studien

Keine oder ungenaue Beschreibungen in Studien

Verwendung unterschiedlicher Effektgrößen

Was stimmt nicht bezüglich der Kodierung methodischer Qualität?

Man kann z.B. mittels der Maryland Scale eine methodische Globalbewertung vornehmen.

Bei der Maryland Scale wird nicht zwischen verschiedenen Versuchsdesigns unterschieden.

Man kann den Summenscore methodischer Einzelkriterien berechnen.

MacLeod & Weisz vergeben z.B. jeweils einen Punkt für Stichprobengröße > 30, blinde Teilnehmende, blinde Untersuchende, objektive Daten, ...

Welche drei „Arten“ von Ergebnissen werden in Metaanalysen kodiert?

I) Deskriptive Parameter notieren
• z.B. Mittelwert, Streuung, Anzahl der Probanden, Anzahl der Messungen

II) Statistische Kennwerte notieren
• z.B. t-Wert, F-Wert, Signifikanzniveau (p-Wert)

III) Einheitliche Effektstärke berechnen: Die Effektstärke (oder Effektgröße) gibt die Größe eines statistischen Effekts an und kann die praktische Relevanz verdeutlichen

• Vorteile: Effekte können verglichen werden, auch wenn verschiedene Messemethoden genutzt wurden (z.B. Leistung als Schulnote, Elternbeurteilung, erreichte Punkte in Tests, etc.); geradlinig interpretierbar

Was trifft auf einheitliche Effektstärken nicht zu?

Effektstärken geben die Größe eines statistischen Effekts an.

Interpretierbarkeit und Vergleichbarkeit sind Vorteile von Effektstärken.

Effektstärken erlauben es Effekte selbst dann zu vergleichen, wenn verschiedene Messmethoden genutzt wurden.

Allerdings ermöglichen selbst Effektstärken keine geradlinige Interpretation.

Was stimmt nicht hinsichtlich dem d-Index bzw. Cohen’s d?

Cohen’s d beschreibt einen standardisierten Mittelwertsunterschied.

Cohen’s d berechnet sich folgendermaßen: Mittelwertsunterschied / Gemeinsame Streuung.

d = 0.0 bedeutet keinen Effekt, d ≥ 0.5 einen kleinen und d ≥ 0.8 einen großen Effekt.

d = 1.0 bedeutet z.B., dass die Trainingsgruppe eine SD über dem Mittelwert der KG liegt.

Was stimmt nicht hinsichtlich dem Hedge’s g?

Hedge’s g beschreibt einen standardisierten Mittelwertsunterschied.

Hedge’s g berechnet sich folgendermaßen: Mittelwertsunterschied / Gepoolte Streuung.

g = 1.0 bedeutet z.B., dass die Trainingsgruppe eine SD über dem Mittelwert der KG liegt.

Im Gegensatz zu Cohen’s d wird bei Hedge’s g die Stichprobengröße nicht miteinbezogen, weshalb man Hedge’s g nur bei gleichen Gruppengrößen verwenden sollte.

Was stimmt nicht hinsichtlich dem r-Index?

Der r-Index ist die Produkt-Moment-Korrelation.

Der r-Index gibt die geteilte Varianz an.

r = 0 bedeutet keinen Effekt/Zusammenhang und r = 1 bedeutet starken Effekt/Zusammenhang.

Der Wertebereich vom r-Index ist [0 , 1]

Was trifft auf die Effektstärke-Berechnung (ES) nicht zu?

Für jeden relevanten Vergleich/jede relevante Studie wird die Effektstärke berechnet.

Man kann auch mehrere ES aus einer Studie/einem Experiment einbeziehen.

Bei mehreren ES in einer Studie kann man den Mittelwert berechnen.

Bei mehreren ES in einer Studie kann man nach inhaltlichen Kriterien eine ES auswählen.

Was sind die vier Ziele/Fragen bei der Integration der Ergebnisse in Metaanalysen?

I) Zusammenfassung und Integration der Ergebnisparameter (Effektstärken) zur Beantwortung der zentralen Fragestellung

• z.B. gibt es einen ZH von Intelligenz und Schulleistung und wie groß ist der?

II) Analyse der Varianz von Effektstärken (Homogenitätsanalysen)

• z.B. gibt es große Unterschiede zwischen den Studienergebnissen?

III) Gibt es Moderatoren?

• z.B. hängt die Effektstärke von Alter, Geschlecht, Art der Studie etc. ab?

IV) Gibt es Publikationsverzerrungen?

• z.B. weisen meine Ergebnisse darauf hin, dass Studien mit geringen oder keinen Effekten gar nicht erst veröffentlicht werden?

Was stimmt nicht hinsichtlich der Integration der Ergebnisparameter?

Die einfachste Methode ist es, die Effektstärke jeder Studie zu gewichten.

Eine Option ist es, aus den jeweiligen Effektstärken aller Studien den Mittelwert zu bilden.

Wenn man den Mittelwert bildet, kann es Informationsverluste geben. Beispielsweise fließen dann kleine und schwache Studien mit gleicher Gewichtung ein wie große und starke Studien.

Die Gewichtung von Effektstärken kann auf Basis von Stichprobengröße, inverser Varianz oder methodischen Aspekten geschehen.

Gewichtung nach SP-Größe geht z.B. nach Hunter-Schmidt: (Summe N*r)/N.

Sind Fixed- oder Random-Effects Modelle besser für Social bzw. Life Sciences?

Fixed-effects Modell:

beruht auf der Annahme, dass alle integrierten Studien sich auf die gleiche Population beziehen
Annahme: Variabilität kommt allein durch Stichprobenfehler zustande
angemessen bei Homogenität der Befunde
erlaubt geringen Generalisierungsgrad der Befunde

Random-effects Modell:

beruht auf der Annahme, dass Einzelstudien unterschiedliche Populationseffekte schätzen
Annahme: Variabilität der Ergebnisse kommt durch Stichprobenfehler und durch zusätzliche Varianzquellen zustande
angemessen bei Heterogenität der Befunde
erlaubt hohen Generalisierungsgrad der Befunde
Random-effects Modelle in den allermeisten Fällen in social/life sciences besser!

Was trifft auf Fixed Effects Modelle bei Metaanalysen nicht zu?

Annahme: Alle integrierten Studien beziehen sich auf die gleiche Population und Variabilität kommt allein durch Stichprobenfehler zustande.

Es wird nur die Varianz innerhalb der Studien zur Gewichtung herangezogen.

Angemessen bei Homogenität der Befunde.

Erlaubt hohen Generalisierungsgrad der Befunde.

Was trifft auf Random Effects Modelle bei Metaanalysen nicht zu?

Annahme: Einzelstudien schätzen unterschiedliche Populationseffekte und und Variabilität kommt durch Stichprobenfehler sowie durch zusätzliche Varianzquellen zustande.

Es wird nur die Varianz innerhalb und zwischen Studien zur Gewichtung herangezogen.

Angemessen bei Homogenität der Befunde.

Erlaubt hohen Generalisierungsgrad der Befunde.

Was ist/sind keine Methode/n zur Integration der Ergebnisparameter?

Hunter & Schmidt

Hedges & Olkin

DerSimonian-Laird sowie Residual Maximum Likelihood (REML)

DuFountaine sowie Maximum Likelihood (ML)

Was trifft nicht auf die Methoden nach Hunter & Schmidt und nach Hedges & Olkin zu?

Hunter & Schmidt erlaubt Korrektur der ES für viele mögliche Fehlerquellen.

Einfachste Form bei Hedges & Olkin: ES (r) wird durch die Stichprobengröße gewichtet.

Hedges & Olkin korrigiert die ES für Varianz in den jeweiligen Studien.

Hedges & Olkin unterschiedet zwischen fixed effects und random effects modellen.

Was trifft nicht auf die Homogenitätsanalyse zu?

Berechnung auf Basis der Effektstärken-Variabilität: Zentrale Frage ist, ob die ES-Variabilität über Studien allein durch SP-Fehler zu erklären ist oder ob es weitere Varianzquellen gibt.

Variabilität zwischen Studien wird verglichen mit Variabilität innerhalb Studien.

Verschiedene Integrationsmethoden (z.B. Hunter & Schmidt, Hedges & Olkin) verwenden alle dieselbe Formel für die Homogenitätsanalyse.

Ergebnis hat Einfluss auf die Annahme von Moderatoren.

Was trifft nicht auf Moderatoren bei Metaanalysen zu?

Eine zentrale Frage ist, welche inhaltlichen und methodischen Aspekte die Effektstärke signifikant beeinflussen?

Eine Herausforderung ist die Konfundierung zwischen inhaltlichen und/oder methodischen Variablen.

Eine Herausforderung ist, dass methodische Variablen einen ähnlich großen Anteil an Varianz aufklären wie inhaltliche Moderatoren.

Bei kategorialen Variablen wird ein regressionsanalytisches Vorgehen und bei kontinuierlichen Variablen varianzanalytisches Vorgehen gewählt.

Was ist keine Methode zur Identifikation von Publikationsverzerrungen?

Vergleich nicht publizierter und publizierter Arbeiten

Berechnung des Fail-Safe N

Funnel-Plots

Rangkorrelationstest

Chi2-Anpassungstest

Welche Aussagen zu Methoden zur Identifikation von Publikationsverzerrungen stimmt nicht?

Fail-Safe N gibt an, wie viele Studien mit ES = 0 es braucht, um den mittleren Effekt gerade nicht signifikant werden zu lassen.

Funnel-Plots zeigen den Zusammenhang zwischen SP-Größe und den ES in den Primärstudien.

Mit Publikationsverzerrungen sieht der Funnel Plot trichterförmig aus mit Gleichverteilung um die mittlere ES.

Der Rangkorrelationstest gibt an, ob die SP-Größe mit der ES korreliert.

Was ist keine Methode, um Publikationsverzerrungen zu korrigieren?

Definition eines Cut-offs

Removal oder Rückkodierung der Outlier auf „realisitische“ Werte

Korrektur nach Trim-and-Fill-Analyse

Randomisierte Auswahl von Daten

Was ist kein Vorteil von Metanalysen?

Sie erlauben eine systematische Integration der Befunde von Einzelstudien, weshalb sie als Entscheidungsgrundlage dienen können.

Sie erlauben die Identifikation von Moderatoren und somit eine gezielte Anpassung von Erkenntnissen.

Sie erlauben Einflussfaktoren miteinander zu vergleichen, sodass man seine Energie auf wirklich effektive Strategien konzentriert.

Im Vergleich zur Durchführung von Experimenten sind Metanalysen simpel und schnell zu machen.

Welche Beschreibungen von Journal-Arten sind richtig? – 2 richtige Antworten

High Impact Journals sind für wirklich neue, fundamentale Erkenntnisse.

Specialized Journals sind für wirklich neue, fundamentale Erkenntnisse.

High Impact Journals sind für eher spezifische Erkenntnisse.

Specialized Impact Journals sind für eher spezifische Erkenntnisse.

Was ist kein Modell von Zeitschriften in der Psychologie?

Submission-based

Open Access

Closed Access

Hybrid

Was trifft nicht auf den Impact Factor zu?

Der Impact Factor ist der Kennwert des Forschenden eines Journals.

Er berechnet sich folgendermaßen: [Zahl der Zitationen in Jahr n (aller Artikel der letzten 2 Jahre)] / [Zahl der Artikel der letzten zwei Jahre].

3 oder 4 ist schon gut, 1 oder 2 sind der Durchschnitt.

Der Impact Factor dient der Bewertung einer Zeitschrift.

Was trifft nicht auf den Hirsch-Index bzw. h-Index zu?

Der Hirsch-Index ist der Kennwert des Forschenden oder des Journals.

h von den insgesamt n Publikationen eines Forschers wurden mindestens h-mal, die restlichen n – h Publikationen höchstens h-mal zitiert.

5 ist bereits ein sehr hoher Wert.

Der Hirsch-Factor dient der Bewertung von Papern eines Forschenden.

Nenne drei Folgen von Fabricated Data.

Vertrauen in Wissenschaft beschädigt
Öffentliche Gelder verschwendet
Nutzlose Nachfolgeforschung angestoßen

Nenne drei strukturelle Ursachen von Fabricated Data.

Steile Hierarchien
Konkurrenzdruck
Belohnungssystem (Effekte-Psychologie; Publikationsdruck „publish or perish“)
Wirtschaftliche Interessen der Publisher
Fehlende Kontrollinstanzen

Nenne drei Gründe, warum viel publizierte Forschung falsch ist (s.B. kleine SP).

kleine Stichproben
kleine Effekte
geringe Teststärke (power)
geringer Anteil tatsächlich bestehender zu abwesenden Effekten
große Anzahl an AVs („cherry picking“, „significance fishing“)
Freiheitsgrade bei der Auswertung (in Kombination mit bestimmten Erwartungen (bias) der Forschenden; „data drenching“, „p-hacking“)
große Anzahl an Teams, die zeitgleich an einer Frage arbeiten
file drawer problem (nur positive Befunde werden veröffentlicht)

Erkläre folgende Probleme hinsichtlich Sloppy Science:
1. Cherry Picking
  bzw. Significance Fishing
2. Data Stretching bzw. p-hacking

Cherry Picking bzw. Significance Fishing: große Anzahl an AVs erhöhen Wskeit signifikante Befunde zu finden, nur sig Avs werden dann berichtet (bei p = .05 Wahrscheinlichkeit falsch zu liegen, dann schon bei 5% also bei jeder 20. Studie)
Data Stretching bzw. p-hacking: Freiheitsgrade bei der statistischen Auswertung (in Kombination mit bestimmten Erwartungen (bias) der Forschenden. Ziel es ist, den p-Wert (d. h. die Signifikanz) durch nachträgliche Anpassung der Testparameter unter eine bestimmte Grenze zu reduzieren.

Was trifft nicht auf die „Just post it.“-Studie von Simonsohn zu?

Zentrale Aussage ist, dass Rohdaten mit publizierten Artikeln veröffentlich werden sollen.

Publikation der Rohdaten bringt zwar Vorteile, dem stehen aber Hindernisse im Weg.

Fälschung von Daten kann beispielsweise an unwahrscheinlich ähnlichen Mittelwerten und Standardabweichungen oder an unwahrscheinlich normalverteilten Angaben erkannt werden.

Datenfälschung ist recht unkompliziert – solange man sich an ein paar simple Regeln hält (z.B. Normalverteilung beachten, ein paar Ausreißer hinzufügen) fällt eine Fälschung nicht auf.

Was soll man nicht tun, wenn man Zugang zu den Originaldaten bekommt?

Ausreißer ausschließen und Analyse neu rechnen.

Darstellungsfehler ausschließen.

Alternativerklärungen ausschließen.

Erklärung der Autoren prüfen.

Was trifft auf Sloppy Science und ihre Vermeidung nicht zu?

Sloppy Science beschreibt eher eine schlampige Arbeit und weniger eine absichtliche Fälschung von Daten und Forschung.

Simmons, Nelson & Sominsohn meinen, man solle die Freiheitsgrade von Forschenden reduzieren, um Sloppy Science zu vermeiden.

Probleme von False Positives sind, das diese in Literatur und Gedächtnis bleiben und dass wegen dieser Ressourcen verschwendet werden.

p-Hacking ist kein Beispiel für Sloppy Science.

Statistik

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google