ergänzende Fragen Evi
ergänzende Fragen
ergänzende Fragen
Kartei Details
Karten | 94 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 19.04.2020 / 25.07.2020 |
Weblink |
https://card2brain.ch/box/20200419_3445_evaluation
|
Einbinden |
<iframe src="https://card2brain.ch/box/20200419_3445_evaluation/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Ab wann hat ein Dropout Auswirkungen auf die interne Validität?
wenn er unsystematisch, also zufäliig ist...dass er zufällig ist, (oder ob der Dropout selektiv ist) lässt sich empirisich überprüfen. Wenn man die Gruppe der Heruasgefallenen mit der Gruppe der Verlbiebenen in Bezug auf alle Variablen, auf denen vollstänige Messwerte vorliegen, multivariat vergleicht und sich kein mutlivariater Mittelwertunterschied zeigt, dann ist der Drop-out nicht systematisch --> dann ist die interne Validität des Designs auch nicht gefährdet
Was ist das Simpson-Paradox?
Das Simpson-Paradox beschreibt einen speziellen Fall der Konfundierung. Das Paradox besteht darin, dass ein beobachteter Effekt der Maßnahme innerhalb jeder Subgruppe der Störvariablen hypothesenkonform ist, über die Subgruppen hinweg jedoch sein Vorzeichen umkehrt und hypothesenwidrig ist.
--------------------
Mario Gollwitzer, Reinhold S. Jäger, Evaluation kompakt (2014), Beltz Verlagsgruppe, 69 469 Weinheim, ISBN: 9783621281751
n unserem Datenbeispiel war die Korrelation zwischen Geschlecht und Bedingung sehr hoch ( F =0 ,76): In der Kontrollgruppe waren wesentlich mehr Männer, in der Interventionsgruppe warenwesentlichmehrFrauen.ZudemsiehtmananderVerteilungderMittelwertezwischenden Geschlechtern,dasseseinenHaupteffektdesGeschlechtsgab:Frauenhabenoffenbargenerellsehr viel niedrigere Therapieerfolgswerte als Männer. Aggregiert man nun die Mittelwerte in der KontrollgruppeüberMännerundFrauenhinweg,sohatderMittelwertderMänner(30,8)dabei ein viel stärkeres Gewicht (81,8%) als der Mittelwert der Frauen (11,79) –d eshalb ist der Gesamtmittelwert in der Kontrollgruppe also relativ hoch (27,35). Aggregiert man nun die Mittelwerte in der Therapiegruppe über Männer und Frauen hinweg, so hat hier der Mittelwert der Frauen (20,01) ein viel stärkeres Gewicht (94,7%) als der Mittelwert der Männer (32,67) – deshalbistderGesamtmittelwertinderTherapiegruppeauchsogering(20,68). EinSimpson-Paradoxistnichtohneweiteresauflösbar;schließlichhandeltessichnichtumeinen Effekt, der im Nachhinein noch statistisch zu kontrollieren wäre. Im Vorhinein kann ein Simpson-Paradoxz.B.durch Õ Ausbalancierungverhindertwerden.
--------------------
Mario Gollwitzer, Reinhold S. Jäger, Evaluation kompakt (2014), Beltz Verlagsgruppe, 69 469 Weinheim, ISBN: 9783621281751
--------------------
https://content-select.com/goto/9783621281751/191
Der Effekt einer UV auf eine AV ist in der Teilstichprobe von (z.B.) "Frauen" homogen im VErgleich zum Effekt von der Teilstichprobe "Männer". Aggregiert man aber diese beiden Teilstichproben, dreht sich der Effekt um!
--------------------
https://content-select.com/goto/9783621281751/189
- Design mit mehreren Messzeitpunkten --> Messung intraindividueller Veränderungsgradienten, die Aufschluss darüber geben, zu welchen Zeitintervallen welche Veränderungen stattgefunden haben
- Design mit mehreren nicht-äquivalenten abhängigen Variablen --> nicht äquivalent sind abhängige Variablene, die unterschiedliche Funktionen haben (AV 1: misst maßnahmenspez. Wirkung / AV 2: misst maßnahmenunspez. Wirkung / AV 3: mißt externe Wirkung) -- Eine Firma, die Spielzeug herstellt, möchte die Wirkung von TV-Spots vor Weih- nachten evaluieren. Hierzu vergleicht sie die Verkaufszahlen für Spielzeug, das vor Weihnachten im Fernsehen beworben wurde(»VariableA«) mit denVerkaufszahlenfürSpielzeug, das in den Spots nicht beworben wurde (»Variable B«). Sind die Verkaufszahlen für das beworbene Spielzeug höher als jene für nicht beworbenes Spielzeug, deutet das auf einen maßnahmenspezifischenEffekthin
- Design mit Kohorten-Kontrollgruppen --> bei regelmäßiger Datenerhebung unterschiedlicher Kohorten (z.B. Uni-Module, Abiprüfungen)
- Kohorten-Designs mit Parallelsiierung --> z.B. Datenerhebung von Geschwistern, die als natürlich parallelisiert gelten (in Bezug auf Störvariablen wie Intelligenz, soziodemograf. Status der Eltern, etc.)
- Kohorten-Design mit Messwiederholung --> s. Bild --> Ob es in Kohorte A einen langfristigen Trainingseffekt (Pre-Follow-up-Vergleich) gab, lässt sich ermitteln, indem die Follow-up-Testwerte der Kohorte A (diese Schüler sind im September 2007 in der 7.Jahrgangsstufe) mit den Pre-Testwerten von Kohorte C verglichen werden,d.h.jenenSchülern,die im September 2005 in der 7.Klasse waren.Ist der Mittelwert der Follow-up-TestwertefürKohorte A höher als der Mittelwert der Pre-Testwerte für Kohorte C,so spricht das für einen langfristigen Effekt.
Reifungs- und sonstige Alterseffekte kommen als Alternativerklärungen nicht in Frage, denn schließlich vergleicht man hier zwei Kohorten,die hinsichtlich Alter,Erfahrung und Entwicklungsstand unmittelbar vergleichbar sind
--------------------
Mario Gollwitzer, Reinhold S. Jäger, Evaluation kompakt (2014), Beltz Verlagsgruppe, 69 469 Weinheim, ISBN: 9783621281751
--------------------
https://content-select.com/goto/9783621281751/193
--------------------
Was ist Konfundierung?
Einfluss von Störvariablen die mit der UV korreliert sind. Störvariablen sind - wenn es sich nicht um Konfundierung handelt - eigentlich nur mit der AV korreliert
Wie werden typischerweise Ausreißer mit den folgenden Methoden identifiziert?
- Box-Whisker Diagramm
- Standardwerte
- Mahalnobis Distanz
- Hebelwerte
- Residualwerte
- Box-Whisker Diagramm (alles was ober-/unterhalb des 1,5 fachen Interquartilsabstandes liegt // IQA = Q3 - Q1)
- Standardwerte ( > 3 SD ober-/unterhalb des Mittelwertes)
- Mahalnobis Distanz (komplizierteres Verfahren, extreme Ausreißer erhalten ein stärkeres Gewicht als schwache A.)
- Hebelwerte
- Residualwerte
Was besagt die Spärizitäts- bzw. Zirkularitätsannahme?
besagt, dass die Varianzen aller paarweisen Differenzen (d) zwischen zwei Messzeitpunkten homogen sein müssen
Wie ist die Teststärke definiert?
Die Teststärke (Power) eines statistischen Tests ist definiert als die Wahrscheinlichkeit, mit der der Test bei gegebenem Signifikanzniveau ( a )u nd gegebener Stichprobengröße ( n ) in der Lage ist, einen definierten Populationseffekt (einer bestimmten Größe) zu finden, falls dieser tatsächlich existiert. Die Teststärke definiert also die Wahrscheinlichkeit, mit der ein statistischer Test ein signifikantes Ergebnis produziert, wenn in der Population ein Effekt der spezifizierten Größe tatsächlich existiert.
Welcher Wahrscheinlichkeit entspricht die Power eines Tests?
Wie genau ist beta definiert?
Die Power eines Tests entspricht der Wahrscheinlichkeit 1– beta.
Beta beschreibt die Wahrscheinlichkeit, mit der man die Alternaitvhypothese fälschlicherweise ablehnt
1-beta = Wahrscheinlichkeit, mit der man sich für die Alternativhypothese entscheidet, wenn diese in der Population auch zutrifft
statistische Entscheidungen zu alpha, beta, 1 minus alpha und 1 minus beta
Alpha: Wahrscheinlichkeit, mit der man die Alternativhypothese fälschlicherweise annimmt
Beta: Wahrscheinlichkeit, mit der man die Alternativhypothese fälschlicherweise ablehnt
1 minus alpha: Wahrscheinlichkeit, sich richtigerweise für die H0 zu entscheiden
1 minus beta = Wahrscheinlichkeit, sich richtigerweise für die H1 zu entscheiden
Richtig oder Falsch?
Ein strenges alpha-Fehlerniveau von 1% bedeutet, dass der Test eine hohe Teststärke hat!
FALSCH --> Ein einzelnes empirisches Ergebnis muss relativ stark von Null abweichen, um in den Ablehnungsbereich unter der Nullhypothese zu fallen. Ein strenger Test hat demnach eine geringe Teststärke. Legt der Forscher hingegen ein liberales a-Fehlerniveau an (z. B. 10%), so ist die Wahrscheinlichkeit für ein empirisches Ergebnis größer, in die Kategorie »signifikant« zu fallen–d ie Teststärke ist höher. (Zitiat aus Gollwitzer S. 221)
Zusammengefasst:
Die Teststärke ist positiv mit
- der Größe des theoretisch spezifizierten Effekts,
- mit der Stichprobengröße,
- mit der Reliabilität des gemessenen Merkmals sowie
- mit der Höhe des festgelegten a-Fehlerniveaus
korreliert.
Was macht man beim Autoregressor-Modell?
Man partialisiert z.B. Pre-Testwerte aus der AV aus, d.h. man tut so, als hätten alle Personen den gleichen Wert im pre-Test gehabt, was vom Vorgehen her einer Kovarianzanalyse entspricht, bei der die Kovariate der Pre-Test ist (S. 225 f.)
Das Besondere ist, dass es sich bei der Kovariate und der AV um die gleiche Variable handelt, die nur zu unterschiedlichen Zeitpunkten gemessen wurde. In der regressionsanalytischen Terminologie bezeichnet man die Kovariate »Pre-Test« auch als Autoregressor. In Autoregressor-Modellen wird eine AV (gemessen zu einem »späteren« Zeitpunkt) gleichsam »um sich selbst« (gemessen zu einem früheren Zeitpunkt) bereinigt (»residualisiert«).
Was genau passiert in einem Auto-Regressor-Modell? S.226
In Autoregressor-Modellen wird eine AV (gemessen zu einem »späteren« Zeitpunkt) gleichsam »um sich selbst« (gemessen zu einem früheren Zeitpunkt) bereinigt (»residualisiert«).
Wichtige Aspekte und Zusammefassung zum Thema "Auspartialisierung":
Bei messwiederholten Analysen kann auch der Pre-Test wie eine Störvariable behandelt und auspartialisiert werden. Dadurch wird die Messung um all jene Effekte bereinigt, die mit Unterschieden im Pre-Test in Verbindung stehen. Man spricht dann von einem Autoregressor-Modell.
Werte späterer Messzeitpunkte, welche um ihre jeweiligen Pre-Testwerte bereinigt wurden, nennt man auto-residualisierte Werte. Hierzu muss sichergestellt sein, dass (a) es keine Interaktion zwischen den Pre-Testwerten und der UV gibt und dass (b) die Pre-Testwerte möglichst messfehlerfrei gemessen wurden, da es ansonsten zu artifiziellen Effekten (Lords Paradox) kommen kann.