ergänzende Fragen Evi
ergänzende Fragen
ergänzende Fragen
Set of flashcards Details
Flashcards | 94 |
---|---|
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 19.04.2020 / 25.07.2020 |
Weblink |
https://card2brain.ch/box/20200419_3445_evaluation
|
Embed |
<iframe src="https://card2brain.ch/box/20200419_3445_evaluation/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Create or copy sets of flashcards
With an upgrade you can create or copy an unlimited number of sets and use many more additional features.
Log in to see all the cards.
neben der Bedingungszuweisung (Interventions- vs. Kontrollgruppe) wird in diesem Plan zusätzlich variiert, ob überhaupt ein Pre-Test stattfindet oder nicht, da auch ein Pre-Test (t1) einenen systematischen Einfluss auf die Messung zum Zeitpunkt t2 haben kann (Erinnerungseffekt z.B.)
Im Solomon-4-Gruppen-Plan ist die AV der Post-Test
hat eine hohe interne und externe Validität, ist aber auch aufwändiger zu realisieren und die Eval.stichprobe muss ausreichend groß sein
Ab wann hat ein Dropout Auswirkungen auf die interne Validität?
wenn er unsystematisch, also zufäliig ist...dass er zufällig ist, (oder ob der Dropout selektiv ist) lässt sich empirisich überprüfen. Wenn man die Gruppe der Heruasgefallenen mit der Gruppe der Verlbiebenen in Bezug auf alle Variablen, auf denen vollstänige Messwerte vorliegen, multivariat vergleicht und sich kein mutlivariater Mittelwertunterschied zeigt, dann ist der Drop-out nicht systematisch --> dann ist die interne Validität des Designs auch nicht gefährdet
Was ist das Simpson-Paradox?
Das Simpson-Paradox beschreibt einen speziellen Fall der Konfundierung. Das Paradox besteht darin, dass ein beobachteter Effekt der Maßnahme innerhalb jeder Subgruppe der Störvariablen hypothesenkonform ist, über die Subgruppen hinweg jedoch sein Vorzeichen umkehrt und hypothesenwidrig ist.
--------------------
Mario Gollwitzer, Reinhold S. Jäger, Evaluation kompakt (2014), Beltz Verlagsgruppe, 69 469 Weinheim, ISBN: 9783621281751
n unserem Datenbeispiel war die Korrelation zwischen Geschlecht und Bedingung sehr hoch ( F =0 ,76): In der Kontrollgruppe waren wesentlich mehr Männer, in der Interventionsgruppe warenwesentlichmehrFrauen.ZudemsiehtmananderVerteilungderMittelwertezwischenden Geschlechtern,dasseseinenHaupteffektdesGeschlechtsgab:Frauenhabenoffenbargenerellsehr viel niedrigere Therapieerfolgswerte als Männer. Aggregiert man nun die Mittelwerte in der KontrollgruppeüberMännerundFrauenhinweg,sohatderMittelwertderMänner(30,8)dabei ein viel stärkeres Gewicht (81,8%) als der Mittelwert der Frauen (11,79) –d eshalb ist der Gesamtmittelwert in der Kontrollgruppe also relativ hoch (27,35). Aggregiert man nun die Mittelwerte in der Therapiegruppe über Männer und Frauen hinweg, so hat hier der Mittelwert der Frauen (20,01) ein viel stärkeres Gewicht (94,7%) als der Mittelwert der Männer (32,67) – deshalbistderGesamtmittelwertinderTherapiegruppeauchsogering(20,68). EinSimpson-Paradoxistnichtohneweiteresauflösbar;schließlichhandeltessichnichtumeinen Effekt, der im Nachhinein noch statistisch zu kontrollieren wäre. Im Vorhinein kann ein Simpson-Paradoxz.B.durch Õ Ausbalancierungverhindertwerden.
--------------------
Mario Gollwitzer, Reinhold S. Jäger, Evaluation kompakt (2014), Beltz Verlagsgruppe, 69 469 Weinheim, ISBN: 9783621281751
--------------------
https://content-select.com/goto/9783621281751/191
Der Effekt einer UV auf eine AV ist in der Teilstichprobe von (z.B.) "Frauen" homogen im VErgleich zum Effekt von der Teilstichprobe "Männer". Aggregiert man aber diese beiden Teilstichproben, dreht sich der Effekt um!
--------------------
https://content-select.com/goto/9783621281751/189
- Design mit mehreren Messzeitpunkten --> Messung intraindividueller Veränderungsgradienten, die Aufschluss darüber geben, zu welchen Zeitintervallen welche Veränderungen stattgefunden haben
- Design mit mehreren nicht-äquivalenten abhängigen Variablen --> nicht äquivalent sind abhängige Variablene, die unterschiedliche Funktionen haben (AV 1: misst maßnahmenspez. Wirkung / AV 2: misst maßnahmenunspez. Wirkung / AV 3: mißt externe Wirkung) -- Eine Firma, die Spielzeug herstellt, möchte die Wirkung von TV-Spots vor Weih- nachten evaluieren. Hierzu vergleicht sie die Verkaufszahlen für Spielzeug, das vor Weihnachten im Fernsehen beworben wurde(»VariableA«) mit denVerkaufszahlenfürSpielzeug, das in den Spots nicht beworben wurde (»Variable B«). Sind die Verkaufszahlen für das beworbene Spielzeug höher als jene für nicht beworbenes Spielzeug, deutet das auf einen maßnahmenspezifischenEffekthin
- Design mit Kohorten-Kontrollgruppen --> bei regelmäßiger Datenerhebung unterschiedlicher Kohorten (z.B. Uni-Module, Abiprüfungen)
- Kohorten-Designs mit Parallelsiierung --> z.B. Datenerhebung von Geschwistern, die als natürlich parallelisiert gelten (in Bezug auf Störvariablen wie Intelligenz, soziodemograf. Status der Eltern, etc.)
- Kohorten-Design mit Messwiederholung --> s. Bild --> Ob es in Kohorte A einen langfristigen Trainingseffekt (Pre-Follow-up-Vergleich) gab, lässt sich ermitteln, indem die Follow-up-Testwerte der Kohorte A (diese Schüler sind im September 2007 in der 7.Jahrgangsstufe) mit den Pre-Testwerten von Kohorte C verglichen werden,d.h.jenenSchülern,die im September 2005 in der 7.Klasse waren.Ist der Mittelwert der Follow-up-TestwertefürKohorte A höher als der Mittelwert der Pre-Testwerte für Kohorte C,so spricht das für einen langfristigen Effekt.
Reifungs- und sonstige Alterseffekte kommen als Alternativerklärungen nicht in Frage, denn schließlich vergleicht man hier zwei Kohorten,die hinsichtlich Alter,Erfahrung und Entwicklungsstand unmittelbar vergleichbar sind
--------------------
Mario Gollwitzer, Reinhold S. Jäger, Evaluation kompakt (2014), Beltz Verlagsgruppe, 69 469 Weinheim, ISBN: 9783621281751
--------------------
https://content-select.com/goto/9783621281751/193
--------------------
Was ist Konfundierung?
Einfluss von Störvariablen die mit der UV korreliert sind. Störvariablen sind - wenn es sich nicht um Konfundierung handelt - eigentlich nur mit der AV korreliert
Wie werden typischerweise Ausreißer mit den folgenden Methoden identifiziert?
- Box-Whisker Diagramm
- Standardwerte
- Mahalnobis Distanz
- Hebelwerte
- Residualwerte
- Box-Whisker Diagramm (alles was ober-/unterhalb des 1,5 fachen Interquartilsabstandes liegt // IQA = Q3 - Q1)
- Standardwerte ( > 3 SD ober-/unterhalb des Mittelwertes)
- Mahalnobis Distanz (komplizierteres Verfahren, extreme Ausreißer erhalten ein stärkeres Gewicht als schwache A.)
- Hebelwerte
- Residualwerte
Was besagt die Spärizitäts- bzw. Zirkularitätsannahme?
besagt, dass die Varianzen aller paarweisen Differenzen (d) zwischen zwei Messzeitpunkten homogen sein müssen
Wie ist die Teststärke definiert?
Die Teststärke (Power) eines statistischen Tests ist definiert als die Wahrscheinlichkeit, mit der der Test bei gegebenem Signifikanzniveau ( a )u nd gegebener Stichprobengröße ( n ) in der Lage ist, einen definierten Populationseffekt (einer bestimmten Größe) zu finden, falls dieser tatsächlich existiert. Die Teststärke definiert also die Wahrscheinlichkeit, mit der ein statistischer Test ein signifikantes Ergebnis produziert, wenn in der Population ein Effekt der spezifizierten Größe tatsächlich existiert.
Welcher Wahrscheinlichkeit entspricht die Power eines Tests?
Wie genau ist beta definiert?
Die Power eines Tests entspricht der Wahrscheinlichkeit 1– beta.
Beta beschreibt die Wahrscheinlichkeit, mit der man die Alternaitvhypothese fälschlicherweise ablehnt
1-beta = Wahrscheinlichkeit, mit der man sich für die Alternativhypothese entscheidet, wenn diese in der Population auch zutrifft
statistische Entscheidungen zu alpha, beta, 1 minus alpha und 1 minus beta
Alpha: Wahrscheinlichkeit, mit der man die Alternativhypothese fälschlicherweise annimmt
Beta: Wahrscheinlichkeit, mit der man die Alternativhypothese fälschlicherweise ablehnt
1 minus alpha: Wahrscheinlichkeit, sich richtigerweise für die H0 zu entscheiden
1 minus beta = Wahrscheinlichkeit, sich richtigerweise für die H1 zu entscheiden
Richtig oder Falsch?
Ein strenges alpha-Fehlerniveau von 1% bedeutet, dass der Test eine hohe Teststärke hat!
FALSCH --> Ein einzelnes empirisches Ergebnis muss relativ stark von Null abweichen, um in den Ablehnungsbereich unter der Nullhypothese zu fallen. Ein strenger Test hat demnach eine geringe Teststärke. Legt der Forscher hingegen ein liberales a-Fehlerniveau an (z. B. 10%), so ist die Wahrscheinlichkeit für ein empirisches Ergebnis größer, in die Kategorie »signifikant« zu fallen–d ie Teststärke ist höher. (Zitiat aus Gollwitzer S. 221)
Zusammengefasst:
Die Teststärke ist positiv mit
- der Größe des theoretisch spezifizierten Effekts,
- mit der Stichprobengröße,
- mit der Reliabilität des gemessenen Merkmals sowie
- mit der Höhe des festgelegten a-Fehlerniveaus
korreliert.
Was macht man beim Autoregressor-Modell?
Man partialisiert z.B. Pre-Testwerte aus der AV aus, d.h. man tut so, als hätten alle Personen den gleichen Wert im pre-Test gehabt, was vom Vorgehen her einer Kovarianzanalyse entspricht, bei der die Kovariate der Pre-Test ist (S. 225 f.)
Das Besondere ist, dass es sich bei der Kovariate und der AV um die gleiche Variable handelt, die nur zu unterschiedlichen Zeitpunkten gemessen wurde. In der regressionsanalytischen Terminologie bezeichnet man die Kovariate »Pre-Test« auch als Autoregressor. In Autoregressor-Modellen wird eine AV (gemessen zu einem »späteren« Zeitpunkt) gleichsam »um sich selbst« (gemessen zu einem früheren Zeitpunkt) bereinigt (»residualisiert«).
Was genau passiert in einem Auto-Regressor-Modell? S.226
In Autoregressor-Modellen wird eine AV (gemessen zu einem »späteren« Zeitpunkt) gleichsam »um sich selbst« (gemessen zu einem früheren Zeitpunkt) bereinigt (»residualisiert«).
Wichtige Aspekte und Zusammefassung zum Thema "Auspartialisierung":
Bei messwiederholten Analysen kann auch der Pre-Test wie eine Störvariable behandelt und auspartialisiert werden. Dadurch wird die Messung um all jene Effekte bereinigt, die mit Unterschieden im Pre-Test in Verbindung stehen. Man spricht dann von einem Autoregressor-Modell.
Werte späterer Messzeitpunkte, welche um ihre jeweiligen Pre-Testwerte bereinigt wurden, nennt man auto-residualisierte Werte. Hierzu muss sichergestellt sein, dass (a) es keine Interaktion zwischen den Pre-Testwerten und der UV gibt und dass (b) die Pre-Testwerte möglichst messfehlerfrei gemessen wurden, da es ansonsten zu artifiziellen Effekten (Lords Paradox) kommen kann.
Durchführungsmodi
Unter welchen Bedingungen wird eine Evaluation durchgeführt?
Es werden basierend auf den Durchführungsmodi die folgenden Arten der Evaluationsforschung unterschieden:
Intrinsische vs. extrinische Evaluation
interne ( = EIGENEVALUATION ) vs. externe Evaluation (FREMDEVAL)
summative vs. formative Evaluation
vergleichende vs. nicht-vergleichende Evaluation
Intrinsische (= Bewertung der inneren Struktur einer Maßnahme) vs. extrinische Evaluation (= Analyse der Effekte einer Maßnahme) interne (= Personen, die die Maßnahme umsetzen, führen auch die Evaluation durch) vs. externe Evaluation (= Evaluation wir an
Zeitpunkt der Evaluation
Evaluationsarten können anhand des Zeitpunkts der Evaluation kategorisiert werden. Die Evaluation kann entweder vor Beginn der Maßnahme, während, oder nach Abschluß durchgeführt werden.
Es werden basierend auf den Zeitpunkt die folgenden Arten der Evaluationsforschung unterschieden:
Prognostische Evlauation = vor Maßnahmenbeginn um bestimmte Zustände zu antizpieren, Ziel: zukunftsbezogene Aussagen
Prospektive Evaluation = Schaffung von Rahmenbedingungen, welche die Wirksamkeit einer Maßnahme pos. beeinflussen
Prozessevalaution = begleitende Bewertung einer Maßnahme in der Phase ihrer Durchführung
Ergebnisevaluation = Outputevaluation = Bewertung, was eine Maßnahme letztendlcih gebracht hat
Ausrichtung der Evaluation
Woran soll sich eine Evaluation orientieren? Geht es um eine globale oder eine differenzierte Evaluation?
Es werden basierend auf der Ausrichtung die folgenden Arten der Evaluationsforschung unterschieden:
Makroevaluation
MIkroevaluation
Programmevaluation
Inputevaluation
Complianceevaluation
Outputevaluation
Makroevaluation = Gesamtbewertung eines Eval.gegenstandes
MIkroevaluation = einzelne Aspekte sollen evaluiert werden
Programmevaluation = Aufgabe der Evaluatoren ist die Bereitstellung relevanten Handlungswissens
Inputevaluation = Unter welchen Bedingungen wird eine Maßnahme begonnen? Welche Ressourcen stehen zur Verfügung?
Complianceevaluation = Verhalten der Betroffenen im Kontext der Intervention wird evaluiert
Outputevaluation = Bewertung, was die Maßnahme letztendlich gebracht hat
Evaluationsmodell
Mit dem Begriff Evaluationsmodell will man die Zielrichtung des jeweiligen Ansatzes in den Vordergrund rücken. Welche Zielsetzung steht im Vordergrund? Soll die Evaluation dazu beitragen, einen Praxisbezug oder eine bestehende Theorie zu bewerten? Die nachfolgende Einteilung umschreibt verschiedene Spielarten, die in unterschiedlichen Evaluationsmodellen zum tragen kommen.
Es werden basierend auf dem Evaluationsmodell die folgenden Arten der Evaluationsforschung unterschieden:
Praxisorientierte Evaluation
Entwicklungsorientierte Evaluation
Theorieorientierte Evaluation
Praxisorientierte Evaluation = Bei einer praxisorientierten Evaluation wird ein gegebenes Projekt
danach beurteilt, ob und wie es sich im Praxiseinsatz bewährt und welche konkreten Effekte es hervorgebrachthat
Entwicklungsorientierte Evaluation = Bei der entwicklungsorientierten Evaluation dienen die konkreten Ergebnisse einer bereitsdurchgeführten Evaluationder Verbesserung ähnlicher Maßnahmen in der Zukunft. In diesem Fall wird gewissermaßen ein Lerneffekt für nachfolgende Maßnahmen erzielt
Theorieorientierte Evaluation = Das Ziel einer theorieorientierten Evaluation besteht schließlich darin, die einer Maßnahme zugrunde liegende theoretische Fundierung zu testen bzw. zu optimieren. So könnte man aus der Effektivität unterschiedlicher pharmazeutischer Behandlungen bei Migräne unterschiedliche theoretische Modelle über die Genese von Migräne ableiten und diese auf der Basis erhobener Daten testen
Rahmenbedingungen
Jede konkrete EValuation findet unter bestimmten Rahmenbedingungen finanzieller wie organisatorischer Art sowie in einem bestimmten Kontext statt.
Es werden basierend auf den Rahmenbedingungen die folgenden Arten der Evaluationsforschung unterschieden:
Evaluation im Feld vs. im Labor
Parteiliche vs. objektive Evaluation
Geschlossene vs. offene Evaluation
Vertrauliche vs. öffentliche Evaluation
Evaluation im Feld vs. im Labor
Parteiliche vs. objektive Evaluation: Rolle des Evaluators im Rahmen eines Auftrages, im Sinne eines validen Vorgehens ist eine parteiliche Eval. indiskutabel
Geschlossene vs. offene Evaluation: Konkretheit des Eval.auftrages
Vertrauliche vs. öffentliche Evaluation: wie wird mit den Ergebnissen einer Eval. verfahren?
Arten von Evaluationsforschung
(6) Metaevaluation und Metaanalyse
Es werden die folgenden Arten der Evaluationsforschung unterschieden:
Metaaanalyse bzw. summative Metaevaluation
Programm-Design - Evaluation
Metaaanalyse bzw. summative Metaevaluation = quantitative Analyse aus inhaltlich homogenen Primärstudien
Programm-Design - Evaluation = Überprüfungen zum Zwecke einer verbesserten zukünftigen Durchführunghinsichtlich Planung, Gestaltung, verwendeter Methoden, Zielsetzungen usw.
2.1 Zielsetzungen der Evaluation
Es lassen sich mind. drei Zielsetzungen herauskristallisieren
Zustandsevaluation
Veränderungsevaluation
Wirksamkeitsevaluation
Zustandsevaluation:
Bei der Zustandsevaluation zielt die Evaluationsforschung darauf ab, alle
Eigenschaften oder Attribute zu ermitteln, die den Evaluationsgegenstand –das Forschungsobjekt –definieren und es von anderen Forschungsobjekten unterscheiden bzw. abgrenzen. Wenn der Kultusminister von Sachsen-Anhalt das aktuelle Wissensniveau aller Schüler der 8. Klasse des Landes im Fach Mathematik in Erfahrung bringen will, entspricht dies einer Zustandsevaluation.
Veränderungsevaluation:
Veränderungsevaluation.
Bei der Veränderungsevaluation wird der Zustand eines Forschungs-
objektsineinemraum-zeitlichenProzessanalysiert.DerProzesskannunterschiedlichabgebildet
werden:
--> Diagnosen: Das Forschungsobjekt kann über die Zeit im Rahmen mehrerer Erhebungen hinsichtlich seiner Quantität und/oder Qualität erfasst werden. Hierbei ist der Trend von Interesse, also wie sich das Objekt über die Zeit hinweg entwickelt hat bzw. entwickeln wird.
--> Prognose.
--> Retrognose. aktuelle Situation wird mit einem in der Vergangenheit liegenden Zeitpunkt verglichen
Wirksamkeitsevaluation
2.2 Aufgaben der Evaluationsforschung
Die 11 Stufen des Normativen Modells des Evaluationsprozesses nach Balzer, 2005
1. Evaluationsbedarf
2. Evaluationsauftrag
3. Evaluationsgrundlagen
4. Rahmenbedingungen der Evaluation
5. methodische Projektplanungen
6. Durchführung der Evaluation
7. Datenauswertung
8. Präsentation und Berichtigung
9. Dissementation der Ergebnisse
10. Nutzung der Ergebnisse
11. Bewertung der Evaluation
1. Evaluationsbedarf
2. Evaluationsauftrag
3. Evaluationsgrundlagen
4. Rahmenbedingungen der Evaluation
5. methodische Projektplanungen
6. Durchführung der Evaluation
7. Datenauswertung
8. Präsentation und Berichtigung
9. Dissementation der Ergebnisse
10. Nutzung der Ergebnisse
11. Bewertung der Evaluation
2.2. Vier Gütekriterien der Eval.forschung nach Jäger (1997):
- Komplexität eines Eval.gegenstandes (muss sich in der Theorie und im methodischen Zugang widerspiegeln)
- Gültigkeitsbereich einer Fragestellung
- Objektivierbarkeit mit den Kriterien
- Erkennbarkeit: Gegenstand muss der Erkenntnis zugänglich sein (Gott ist z.B. der Wahrnehmung icht zugägnglich)
- Bestimmbarkeit: welche beobachtbaren Parameter können Auskünfte über den Gegenstand geben
- Dokumentierbarkeit
- Transparenz: Regeln der Eval. müssen nachvollziehbar sein
Ist die interne Validität eine hinreichende Bedingung für die Gewährleistung der externen Valididiät?
NEIN!
Was ist die interne Valididät?
Interne
Va
lidität.
InterneValiditätbedeutet,dassein
hypothesenbasiertesEvaluationsdesigninderLageist,
eineeindeutigeAussageüberdieAnnahmeoderdie
AblehnungderentsprechendenHypothesezuliefern
Was ist die externe Validiät?
Externe
Validität.
Externe Validität bedeutet,dass es
möglich ist, die Ergebnisse der Evaluationsuntersuchung
auf andere Kontexte zug eneralisieren
2.3 Evaluationsstandards
Nach Gollwitzer die Standards aus DeGEval, 2008
1. Nützlichkeitsstandards
2. Durchführubarkeitsstandards
3. Fairnessstandards
4. Genauigkeitsstandards
1. Nützlichkeitsstandards --> an den Infobedürfnissen der Eval.nutzer orientiert
2. Durchführubarkeitsstandards --> Eval ist möglichst realistisch, gut durchdacht, diplomatisch und kostenbewusst
3. Fairnessstandards --> in der Eval wird rechtlich und ethisch korrekt mit allen Beteiligten und Betroffenen umgegangen
4. Genauigkeitsstandards --> für den Evalgegenstand und die Fragestellung werden valide Infos bereitgestellt
2.4 Evaluationsmodelle
Welche Orientierungen oder Ansätze für Evaluationsmodelle werden unterschieden?
Methodische und methodologische Orientierungen
Bewertungsorientierte Ansätze
Nutzungsorientierte Ansätze
Normative Ansätze
Methodische und methodologische Orientierungen:
Prozess,dem eine Evaluation folgen soll:
(1) Formulierung allgemeiner Ziele,
(2) Klassifikation der Ziele,
(3) Beschreibung dieser Ziele durch geeignete Verhaltenskategorien,
(4) Identifikation von Situationen und Bedingungen, in denen das fragliche Verhalten gezeigt
werdenkann,
(5) Auswahl oder Entwicklung von wissenschaftlichen Messmethoden zur Überprüfung der
Wirkungen,
(6) Datengewinnungund
(7) VergleichzwischendenempirischenErgebnissenmitdenzuvordefiniertenZielen
Bewertungsorientierte Ansätze (auch gegnerschaftsorientierte Evaluation oder adversary Evaluation)
Anwalt und Gegenanwalt ringen um die Sache (beste Ziele, wie kann Evaldesign entwickelt werden), Zentrale Bedeutung haben die Begriffe: Bewertungsmaßstäbe (= Voraussetzungen zur Bewertung) und Bewertung von Ergebnissen (Schlussfolgerungen)
Nutzungsorientierte Ansätze: welchen Zwecken dienen welche Arten von Ergebnissen?
vier Ebenen: Reaktionsebene, Ebene des Lernerfolgs, Verhaltensebene, Ebene objektiver Endergenisse
Normative Ansätze: wie soll ein Evaluationsprozess gestaltet werden, wenn das Vorgehen wissenschaftlichen Kriterien genügen soll?
3 - Ziele und Funktionen einer Zustandsevaluation (3 Stück):
Ermittlung des konkreten Interventionsbedarfs,
"
Erfüllung einer gesetzlich vorgeschriebenen Berichtspflicht,
"
Entscheidung über die Weiterführung einer Maßnahme
-
- 1 / 94
-