3429


Kartei Details

Karten 192
Sprache Deutsch
Kategorie Psychologie
Stufe Grundschule
Erstellt / Aktualisiert 28.01.2015 / 22.08.2018
Weblink
https://card2brain.ch/box/paedagogische_psycho
Einbinden
<iframe src="https://card2brain.ch/box/paedagogische_psycho/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Zensuren

Problem: mangelnde Objektivität und Reliabilität

wegen:

Erinnerungsfehler

fehlerhafte Attributionen

Urteilstendenzen (Milde-, Strengeeffekt, Tendenz zur Mitte)

Einstellungs- und Erwartungseffekte

aktuelle Befindlichkeit des Lehrers

 

Grundlegende Schwäche des Lehrerurteils (gilt nicht für Leistungstests)

o Mangelnde Vergleichbarkeit von Noten aufgrund des fehlenden klassenübergreifenden Maßstabs für die Leistungsbeurteilung

o D.h. objektiv gleiche Leistung wird in Abhängigkeit vom allgemeinen Leistungsniveau der Klasse und der Schule verschieden bewertet

!!!!obwohl sich bei wiederholter Bewertung der Leistung durchaus große Unter-schiede zeigen, weicht die Mehrheit der Zweiturteile nur wenig vom Ersturteil ab

 

Selbstberichtsinstrumente

Verfahren, bei denen eine Person sich selbst bzgl. interessierender Eigenschaften oder Verhaltensweisen einschätzen soll

Es gibt keine objektiv richtige Antwort

 

Problem: Verfälschbarkeit der Antworten -> vermeintlich sozial erwünsch-te Antworten

- Weniger verbreitete Form: Einschätzungen der eigenen Leistungsfähigkeit

Test zum situerten Urteil: messintention aus Verhaltensabsichten in kritischer Situation auf für xy ausschlaggebende Persönlichkeitseigenschaften bzw. Fertigkeiten der Person zu schließen

Datenquellen

1. Lebensdaten oder biografische Fakten

2. Aussagen über Interessen, Persönlichkeit oder typische Verhaltensweisen (meist Fragebögen)

3. Leistungsbezogenes Verhalten

Intelligenztests

Intelligenztests sind Verfahren, bei denen wesentliche Anteile der Varianz auf individuelle Unterschiede in kognitiver Leistungsfähigkeit zurückzuführen sind. Intellektuelle Fähigkeiten, die mit solchen Verfahren erfasst werden, gelten als über die Zeit relativ stabile Persönlichkeitseigenschaften

aktuelle Verfahren erfassen Generalfaktor und mehrere Gruppenfaktoren

schließt grundsätzlich Schulleistungstest mit ein

Abgrenzung Intelligenztest vs. Schulleistungstest

Schulleistungstest = Erfassung von Leistungen in spezifischen Schulfächern in spezifischen Jahrgangsstufen

o Z.B.: DEMAT 4 (Görlitz, Roick & Hasselhorn, 2006): Erfassung mathemat. Rechenfertigkeiten in der Grundschule für Klassenstufe 1-4

o Spezifischere Tests für Dyskalkulie-Diagnose: RZD (Jacobs & Petermann, 2005), ZAREKI

Evaluation

jegliche Art der zielgerichteten und zweckorientierten Festsetzung des Wertes einer Sache

Evaluationsforschung

wissenschaftliche fundierte, empirische &hypothesenorientierte Forschung

unter systematischer Anwendung sozialwissenschaftlicher Forschungsmethoden

Ergebnisse Evaluationsforschung bilden wesentlich (nicht einzige) Grundlage einer wissenschaftlichen Evaluation

!!!Grundlagenforschung steht Forschungsfrage im Fokus

Komponenten Evaluation

Input, Transformation, Output, Umwelt, Feedback

Input (Evaluation)

Ressourcen, die für eine Maßnahme bereitgestellt werden (organi-sationale Strukturen, Personal, Finanzen, Infrastruktur )

Input (Evaluation)

Ressourcen, die für eine Maßnahme bereitgestellt werden (organi-sationale Strukturen, Personal, Finanzen, Infrastruktur )

Transformation (Evaluation)

Prozess; Durchführung der eigentlichen Maßnahme/ Intervention

Output (Evaluation)

Ergebnisse der Transformation aufseiten der Zielobjekte/Zielpersonen;

Effektivität, Durchführbarkeit, Akzeptanz, theoretische Fundierung

Naziele vs. Fernziele (Wann Effekt von Intervention)

Feedback (Evaluation)

… die eigentliche Evaluation, die idealerweise prozessbegleitet stattfinden sollte;

… Informationen ermöglichen Modifikationen auf Input- und Transformationsseite

ohne Feed-backschleifen steigt Gefahr von Misserfolgen

Umwelt (Evaluation)

Soziale Normen,

Politische Struk-turen,

Wirtschaftliches Umfeld,

Interessengrup-pen,

Erwartungen des Auftraggebers der Evaluation,

Interessen von direkt und indirekt Beteiligten

ohne Output im Umfeld steigt Wahrscheinlichkeit des vorzeitigen Abbruchs d. Maßnahme

Arten von Evaluation

Globale Evaluation Bewertung eines Programms/Objektes als Ganzes

Analytische Evaluation detaillierte Überprüfung einzelner Komponenten eines Programms

Wissenschaftliche Evaluation

Bewertung des Evaluationsgegenstandes ist wenigstens ansatzweise theoriebasiert und stützt sich auf empirische Daten, die im Rahmen der Evaluationsforschung mit wissenschaftlichen Methoden bzw. Verfahren gewonnen und analysiert wurden

Evaluationsparadigmen (Hager) und ihre Hypothesen

Isolierte Evaluation: Wirksamkeitshypothese (Hager, 2008): grundsätzliche Frage nach der Wirksamkeit eines Programms

Vergleichende Evaluation:

Gegenüberstellung mindestens zwei Maßnah-men/Interventionen, die (mit unterschiedlichen Mitteln) dieselben Ziele verfolgen

Kontrollgruppe

Äquivalenzhypothese –Maßnahmen sind gleich erfolgreich

Überlegenheitshypothese – eine Maßnahme hat größere Effekte auf Zielvariable als andere

Nicht-Unterlegenheitshypothese – eine Maß-nahme mind. ebenso wirksam wie Alternative

Kombinierte Evaluation:

Zusammenführung der isolierten und vergleichen-den Evaluation

Dritte „echte" Kontroll-gruppe -> Prüfung der Wirksamkeitshypothese

Produkt vs. Prozess oder

Summative Evaluation vs. Formative Evaluation

Summative Evaluation.Produktevaluation :nach Fertigstellung eines Produktes bzw. Beendigung einer Maßnahme/ Intervention .Ziel: Wirksamkeit von Programmen

Formative Evaluation.Prozessevaluation:setzt direkt während der Entwicklung oder Erprobung einer Maßnahme/ Intervention ein; aber auch interventionsbeglei-tend möglich .Funktion: Modifizierung/ Optimierung der Komponenten eines Programms, um Gesamtwirkung der Maßnahme zu erhöhen

Interne vs. externe Evaluation

(häufig im schulischen Kontext)

Planung, Durchführung, Interpretation der Evaluation liegen in den Händen der Lehrkräfte

vs.

Schulaufsicht ist treibende Kraft

Rankings

PISA: Reihenfolge der 16 Bundesländer (öffentlich)

- League-Tables: Reihenfolge von Einzelschulen hinsichtlich der erreichten Schülerleistungen (England, online)

- CHE-Hochschulranking: Rangfolge von fachbereichsspezifisch deutschen Universitäten hinsichtlich ihrer Angebote für Studierende

- Forschungsrankings: Informationen über Forschungsleistungen (Zahl der Publikationen, Promotionen, Zitationen, eingeworbene Drittmittel) von Fachbereichen an Universitäten

Die acht Schritte einer wissenschaftlichen Evaluation

Entstehungszusammenhang/ Konzeptualisierungsphase

1. Entscheidung über die Durchführung einer Evaluation

2. Entscheidung über zu untersuchende Bereiche

Begründungszusammenhang/ Implementationsphase

3. Entwicklung von Fragestellungen &Indikatoren

4. Konstruktion von Instrumenten

5. Durchführung, Aufbereitung, Auswertung, Dokumentation

Verwertungszusammenhang/ Wirkungsforschungsfrage

6. Entscheidung über Zugang zu den Ergebnissen

7. Interpretation von Ergebnissen

8. Konsequenzen ziehen

Entstehungszusamenhang von Evaluationen

Planung/Entscheidung

o Zentrale Zieldimensionen  (Schritt 1, rest Schritt 2)

o Kontext

o Präzisieren der angestrebten Zielgruppe

o Ort der Evaluation

o Evaluationsmodell

o Qualitätsverständnis folgt Schule oder Un-terricht (Steigerung der Schul- oder Unterrichts-qualität), Forschungstradition (vgl. Tab.)

o Berücksichtigung einer oder mehrerer Kontroll- bzw. Vergleichsgruppen

- Versuch eines fairen Vergleichs:

o Auf Systemebene Wirksamkeit von Schulen nicht durch Vergleich von Schülern mit Nicht-Schülern möglich -> letztere gibt es kaum in Industrienationen

o Statt Kontrollgruppen Schulen, die in vergleichbaren Lagen ähnliche Schüler aufnehmen

Begründungszusammenhang/ Implementationsphase

Formulierung von Fragestellungen bzw. Hypothesen, die Kausalgefüge zwischen Maßnah-me/ Intervention und Kriterium beschreiben (schritt3)

- Einhaltung wissenschaftlicher Standards und Gütekriterien , Credo des kritischen Realismus (theoretische Ableitung& Formulierung von Hypothesen über Kausaliätsgefüge) und Konstruktion von Messinstrumenten mit deren Hilfe Zielvariablen& potentielle Prozessindikatoren der Intervention operationalisiert werden können -> Schritt 4

Verwertungszusammenhang von Evaluation

Bereitstellung von Evaluationsbefunden/ Entscheidungen

o Wenn keine Umsetzung der Befunde in konkrete Anschlussmaßnahmen erfolgt  -> gesamtes Vorgehen der Evaluation fragwürdig

- Zur Vereinfachung: Katalog von Maßnahmen zur Implementation der erwünschten Veränderungen

o fehlt ein solcher Begleit- bzw. Implementationsprogramm, wächst Gefahr nicht intendierter Effekte der Evaluation, indem Adressaten die Befunde einfach ignorieren oder gar abwerten

Vortest-Nachtest-Follow-up-Plan (Evaluationsdesign)

einfachste und hinreichend flexibles Design

3 Erhebungszeitpunkte

vor Beginn der Maßnahme: keine Unterschiede zwischen Interventions- und Kontrollgruppe (Baseline-Erhebung) sonst Auswertungsprobleme (z.B. Regression zur Mitte)

unmittelbar nach Ende der Maßnahme

längere Zeit nach Beendigung der Maßnahme

Vergleiche der Mittelwertverläufe durch Vortest-Nachtest-Follow-up-Plan in isolierter Evaluation

Ergebnismuster

Erfolglose Intervention = parallele Entwicklung der

Mittelwerte in EG und KG Keine Ausgansunterschiede =Verlaufslinien decken sich

Teilweise erfolgreiche Intervention = Anstieg zwischen

Vor- und Nachtest; verschwindet bis zur Follow-up, kurzfristiger Effekt

Erfolgreiche Intervention

mit stabilem Effekt: Anstieg Interventation, bei Follow-up gleich-stabil

mit zunehmendem Effekt: Anstieg Interventation bis Follow-up

mit verzögertem Effekt: Bei Posttestung kein Unterschied, erst bei Follow-Up Ansteig der interventionsgruppe

Kovarianzanalyse

ungleiche Ausgangswerte zwischen EG und KG (Pedhazur, 1997)

Statistische Hypothesen beziehen sich auf Unterschiede zwischen EG und KG in den Mittel-wertsdifferenzen bzw. mittleren Trends:

o Nullhypothese (H0): keine Unterschiede wenn, dann sind sie rein zufällig

o Alternativhypothese (H1): Mittelwertsdifferenzen/Trends unterscheiden sich zwi-schen EG und KG

o Prüfgröße: F-Statistik (Varianzanalyse)

F-Statistik

Erreicht der F-Bruch einen Wert, für den unter der Annahme von H0 gilt, dass dieser oder größere Werte nur noch mit einer Wahrscheinlichkeit von unter 5% (α=0,05) oder von unter 1% (α=0,01) auftreten, so wird H0 verworfen. Aus der Nicht-haltbarkeit von H0 wird dann auf die Geltung der Alternativhypothese H1 geschlossen

 

Nachteil: Stichprobenabhängigkeit -> unbedeutende Differenzen könen bei ausreichend großen Stichproben

Effektstärke

Effektstärken sind relevantere Größen für Beurteilung von Mittelwertsdifferenzen : Maße, die bei kontinuierlichen Zielvariablen berechnet werden:

Koeffizient d

Paarweiser Mittelwertsvergleich; Differenz zwischen Mittelwerten, geteilt durch gepoolte Standardabweichung, Unverzerrter Schätzer für Effektstärke auf Populationsebene

Koeffizient η²

Vergleich zwischen mehreren Gruppen; Deskriptives Maß für die durch die Gruppenzugehörigkeit aufgeklärte Varianz =quadrierter multipler Regressionskoeffizient R² Liefert nur bei sehr großen Stichprobenunverzerrt, in kleinen Überschätzug

 

Grenzbereiche Effektstärken

kein Effekt: <1%

kleiner Effekt: 1-5%

mittlerer Effekt: 6-14%

großer Effekt: >15%

d

kein Effekt: <0.2

kleiner Effekt: 0.2-0.5

mittlerer Effekt: 0.5-0.8

großer Effekt: >0.8

Grenzbereiche Effektstärken

kein Effekt: <1%

kleiner Effekt: 1-5%

mittlerer Effekt: 6-14%

großer Effekt: >15%

d

kein Effekt: <0.2

kleiner Effekt: 0.2-0.5

mittlerer Effekt: 0.5-0.8

großer Effekt: >0.8

Fehlerquellen nach Wottowa &Thierden für  (Methodische Probleme bei Evaluation)

Reifungs-/Entwicklungseffekte

Äquivalenzprobleme

Strichprobenmortalität

Reifungs- und Entwicklungseffekte

Veränderungen aufgrund organismische oder umweltbedingte Effekte;

Veränderungen durch wiederholte Messung unter Verwendung desselben Tests

 

auch Wiederholung von Tests, Übungseffekte

Äquivalenzprobleme

Äquivalenz: Randomisierung (Gleichverteilung aller Personenmerkmale auf Gruppen, Vortest-Nachtest-Follow-up, Maximierung interne Validität)

Nicht Äquivalenz: Keine Randomisierung (zufällige Zuweisung zu Gruppen nicht möglich, Kontrolle der Ausgangsunterschiede und Störvariablen in den Gruppen durch Miterhebung in der Vortestung

Fehlerquellen: bei keiner Randomisierung

 

Diffusion oder Imitation der Intervention

Programm in Kontrollgruppe bekannt, Mitglieder bemühen sich, Treatment zu imitieren;

Kompensatorischer Ausgleich der Intervention

Kontrollgruppe bemüht sich, fehlenden Interventionen durch andere Fördermaßnahmen auszugleichen;

Kompensatorische Anstrengung innerhalb der Kontrollgruppe

Kontrollgruppe fühlt sich benachteiligt und strengen sich in Posttestung besonders an;

Negative Reaktion der Kontrollgruppe

Kontrollgruppe fühlt sich benachteiligt und strengen sich in Posttestung nicht an, sodass es zu einer erheblichen Unterschätzung ihrer Leistung kommt

Strichprobenmortalität

= Teilnehmer verweigern weitere Teilnahme an der Maßnahme

Problem: fehlende Werte

Verlust an Effizient, da Stichprobengröße eingeschränkt ist

Erschwerter Umgang mit den Daten, da statistische Standardverfahren vollständige Datenmatrizen erwarten

Gefahr verzerrter Parameterschätzungen aufgrund möglicher Unterschiede zwischen den beobachteten und den fehlenden Daten

Lösung des Problems

Fallweiser Ausschluss kann Validität der Befunde deutlich senken

Valide Befunde am besten mit Verfahren der Mehrfachschätzung fehlender Werte (multiple imputation; Rubin, 1987) Software zur multiplen Imputation (NORM (Schäfer, 1997); implementierte Routinen in R)

Üblicherweise werden (je nach Menge der fehlenden Werte) zwischen 3 und 10 vollständige Datensätze generiert, die anschließend simultan statistische analysiert werden

Folge: weitgehend unverzerrte Schätzungen fehlender Werte

„ull-information-maximum-likelihood-Verfahren" (FIML): unverzerr-te Parameterschätzung bei unvollständigen Daten

Strategien im pädagogisch-psychologischen Kontext

Minimierung der Mortalität: Stichprobenpflege

Einsatz adäquater statistischer Analyseverfahren

Standardfehler

Problem: Berechnung des Standardfehlers setzt Zufallsstichprobe mit voneinan-der unabhängigen Beobachtungen voraus

Folge: Berechnung des Standardfehlers -> Unterschätzung

Diese Abhängig von Klumpengröße und Homogenität der Klumpen

Klumpenstichprobe

Beobachtungen voneinander  abhängig

hierarchische Datenstruktur

Klumpengröße: je größer Stichprobe, destogrößer Unterschätzung

Kosequenz: zu kleine Konfidenzintervalle für geschätzte Parameter

Inflation möglicher Entscheidungsfehler bei inferenzstatistischen Verfahren

Homogenität der Klumpen: Bestimmung der Intraklassenkorrelation -> je größer die Interklassenkorrelation desto stärker die Verschätzung bei der Bestimmung der Standardfehler

 

Mehrebenenanalytische Verfahren (Evaluation)

hierarchische Daten werden direkt modelliert

Vorteile:

liefern adäquate Schätzungen der Standardfehler;

ermöglichen gleichzeitige Modellierung von Effekten auf Individual- u. Clusterebene

z.B. HLM-Ansatz (Byrk & Raudenbush, 1987, 1989; Raudenbush & Byrk, 2002)

macht hierarchische Struktur selbst zum Gegenstand der Prüfung

regressionsanalytischer Ansatz

Personenmerkmale werden auf individuelle (Ebene 1), Klassen- (Ebene 2) und Schulvariablen (Ebene 3) zurückgeführt

Standards für Evaluation - Richtlinien des Joint Committee on Standards for Educational Evaluation (JCSEE, 1994)

Nutzenstandards (Utility standards): mit Ergebnissen von Evaluationen ein aktueller Wissensbedarf befriedigt werden kann .Evaluationsbefunde sollen informativ und zeit-genau zur Verfügung gestellt werden

Machbarkeits-, Durchführungbarkeitsstandards (feasibility standards): regeln Voraussetzungen für Anpassung des Designs an die Erfordernisse der natürlichen Umgebung. Regeln nach denen Studien durchgeführt werden sollen.

Standards für Anstand und ethisches Vorgehen: (propiety standards): garantieren Schutz individueller Rechte

Datenschutz, ethische Standards, Unversehrtheit der Teilnehmer

Genauigkeitsstandards (accuracy standards): sichern Lieferung verwertbarer Informationen. Evaluation soll umfassend und möglichst viele Programmkomponenten in die Analyse einbeziehen. Einhaltung Regeln wissenschaftlichen Arbeitens zur Gewährleistung der Interpretierbarkeit der Ergebnisse

Schule- Input, Output und Prozess

Input: Bereitgestellte finanzielle Ressourcen, Schulstruktur, Fächerkanon, Lehrpläne, Stundenzahlen, Schulbücher

Prozess: Schulische und unterrichtliche Maßnahmen

Output: Motivationale, emotionale ´, soziale, kognitive Merkmale bei Schülern