Bodeneffekte

Prüfung mit vielen Bodeneffekten...

Prüfung mit vielen Bodeneffekten...


Kartei Details

Karten 323
Sprache Deutsch
Kategorie Berufskunde
Stufe Universität
Erstellt / Aktualisiert 26.05.2013 / 18.08.2013
Weblink
https://card2brain.ch/box/bodeneffekte
Einbinden
<iframe src="https://card2brain.ch/box/bodeneffekte/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was sind die Voraussetzungen für die Berechnung von Interne Konsistenz/Cronbachs alpha?

  • Test/Merkmal ist homogen (alle Items erfassen dasselbe Merkmal)
  • Alpha ist abhängig von der Anzahl Items und der Größe der Interitem-Korrelation
  • Sind die Items unkorreliert, sind Itemvarianzen gleich Testvarianz und alpha gleich null
  • Solange sie positiv korrelieren, nimmt alpha mit steigender Anzahl Items zu
  • Der Cronbach-alpha-Wert der Skala kann durch den Ausschluß einzelner Items verbessert werden
  • Umpolung von Items hat keinen Einfluß auf Cronbachs alpha

Wie interpretiert man Interne Konsistenz/Cronbachs alpha?

  • alpha kein Beleg für Eindimensionalität (alle Items erfassen dasselbe Merkmal)
  • alpha kann auch bei mehrdimensionalem Merkmal hoch ausfallen, solange die Dimensionen miteinander korrelieren
  • alpha mißt nur Zusammenhänge, keine Divergenzen

Wie wendet man Interne Konsistenz/Cronbachs alpha an?

Bei homogenen Merkmalen und einmaliger Messung (Power-/Niveautests und Persönlichkeitstests)

Nicht bei heterogenen Tests, Speedtests oder Tests mit zunehmender Schwierigkeit

Grundsätzliche Überlegungen zur Reliabilität:

Reliabilität sollte idealerweise so hoch wie möglich sein, aber

  • Nicht alle Konstrukte sind gleich reliabel erfaßbar (Stimmung vs. Intelligenz)
  • Nicht alle Reliabilitätskoeffizienten sind gleich hoch (Test-Retest-Reliabilität meist niedriger als interne Konsistenz)

Grundlagenforschung: Reliabilität ausreichend zwischen .70 und .80

klinischer Bereich, Individualdiagnostik: muß höher sein (mindestens .90 oder .95)

Screening: kann niedriger sein

Personalentscheidungen: gefordertes Maß an Reliabilität kommt auf die Anzahl geeigneter Bewerber an

Wichtiger Index für Interpretation der Reliabilität: Standardmeßfehler (SMF)

Welchen Einfluß hat die Homogenität auf die Reliabilität?

Homogene Tests eher reliabel als heterogene

Je mehr homogene Items hinzugefügt werden, desto höher die interne Konsistenz

Heterogene Tests nur bedingt reliabel, können dafür aber externe Kriterien gut voraussagen

Was kann man bei einer niedrigen Reliabilität machen?

  • Höhere Streuung führt meistens zu höherer Reliabilität (da geringe Merkmalsstreuung eine hohe Korrelation unwahrscheinlich macht), Vorsicht, falls Ausreißer
  • Standardisierung der Testdurchführung verbessern (Objektivität Voraussetzung für Reliabilität)
  • Testverlängerung: Domain-Sampling-Modell: je mehr Items bzw. je größer die Itemstichprobe, desto besser wird das Universum bzw. Merkmal repräsentiert; exponentieller Anstieg der Reliabilität bei Verdopplung der Itemanzahl!
  • Item- und Faktorenanalyse: Items mit geringer Trennschärfe oder niedrigem alpha eliminieren, jedes Item soll auf einen Faktor hoch laden
  • Minderungskorrektur: Berechnung, wie hoch die Korrelation zwischen zwei Variablen wäre, wenn der Test keinen Meßfehler hätte

Wie erhält man Qualitative Daten?

  • Offene Fragen
  • Interviews
  • Verhaltensbeobachtung
  • Videoaufnahmen
  • Tagebücher

Was sind Vorteile von offenen Fragen?

Mehrere Fragen auf einmal stellbar (was und wie)
Messung, was nicht gesagt wird oder gesagt werden kann
Kohärenz eines Erlebnisses erfassen, Phänomen im Kontext
Daten relativ zeitlos

Qualitative Daten: Top-down-Ansatz

  • Deduktiv/theoretisch
  • Datenerhebung von theoretischen Konstrukten oder Hypothesen geleitet

Qualitative Daten: Bottom-up-Ansatz

  • Induktiv/empirisch
  • Untersuchung, was in den Daten zu finden ist (explorativ)

Was ist die Hauptschwierigkeit bei qualitativen Daten?

Transformation der unstrukturierten freien Antworten in quantitative Daten

Qualitative Daten: Kodieren der Daten

Antworten mit Hilfe eines Kodiersystems quantifizieren (bereits vorhanden/entwickeln)
Bereits vorhandenes Kodiersystem hinzuziehen
Wurde bereits ausprobiert
Literatur bzgl. Reliabilität und Validität

Beispiel: FACS (Facial Action Coding System)

Qualitative Daten: Kodieren der Daten: Entwicklung eines neuen Kodiersystems

  • Vorgehen bei Top-down-Ansatz

  • Theoriegeleitete Kategorien bilden
  • Material (Protokolle, Filme usw.) sichten und abklären, ob Kategorien fehlen
  • Überarbeitung des Kodiersystems
  • Trainings- und Testphase
  • Kodieren

Qualitative Daten: Kodieren der Daten: Entwicklung eines neuen Kodiersystems:

  • Vorgehen bei Bottom-up-Ansatz

Kodiersystem entsteht erst beim Durchlesen der Daten oder man merkt nachträglich, daß im Kodiersystem etwas fehlte

Qualitative Daten: Entwicklung eines neuen Kodiersystems: Vorgehensphasen

1. Trainingsphase

  • genügend Material
  • System an Feedback der Kodierer anpassen
  • Gute Übereinstimmung der Kodierer finden (Reliabilität)

2. Kodierphase

  • Unabhängiges Kodieren
  • Unkenntnis über Hypothesen (blinde Kodierer)
  • Auswertung: nachträgliches Gespräch (Konsensus)
  • Für Schätzung der Reliabilität: ursprüngliche Bewertungen

Interrater-Reliabilität: Cohens Kappa für nominalskalierte Daten

  • Proportion potenzialer Übereinstimmung (Korrektur für Zufallsübereinstimmung) bei nichtüberschneidenden nominalskalierten Kategorien
  • Strenger (konservativer) als prozentuale Übereinstimmung, d. h. fällt niedriger aus
  • Beste Methode zur Bewertung der Übereinstimmung

Kennwerte bei Cohens Kappa:

Kappa < .4 = schlechte Übereinstimmung
Kappa .4 bis .75 = moderate bis gute Übereinstimmung
Kappa > .75 = sehr hohe Übereinstimmung

Interrater-Reliabilität: Interrater-Korrelationen bei intervallskalierte Daten

  • Wenn relative, proportionale Übereinstimmung von intervallskalierten Daten benötigt wird
  • Es geht um die Konsistenz in den Mustern der Relationen der Ratings, genaue Höhe spielt keine Rolle

Interrater-Reliabilität: Intraclass-Korrelationen (ICC) bei intervallskalierte Daten

  • Erweiterung der Varianzaufteilung der KTT
  • Neben Zufallsfehler werden auch systematische Fehler berücksichtigt, z. B. Varianz der Rater, unterschiedliche Lokalitäten, diese können herauspartialisiert werden

Wie kann man eine Verbesserung der Interrater-Reliabilität erhalten?

  • Genau nachvollziehen, wo die Probleme liegen; Verbessern der Raterleistung (Feedback über die Werte der anderen Rater)
  • Homogenisierung der Rater (Hintergrund der Rater anpassen)
  • Ausschluß von Ratern, deren Werte sich vom Durchschnitt unterscheiden
  • Vereinfachung der Informationsverarbeitungsprozesse (nicht zuviele Kategorien bilden, Schritte zur Kodierung)
  • Skalenbeschreibung verändern (Zwischenstufen mit Zahlen beschriften, Intervallskalen besser als dichotome)
  • Beispiele geben: was ist gemeint, was nicht?
  • Mehrere Durchgänge, Merkmal für Merkmal einzeln beurteilen
  • Beurteilungsobjekte stets in gleicher Weise präsentieren (nicht mal Video, mal live)
  • Varianz erhöhen (unähnlichere Objekte einbeziehen)
  • Prozentsatz der von allen Ratern kodierten Vpn erhöhen

Was ist Validität?

  • Validität = Gültigkeit
  • Wichtigstes Gütekriterium
  • Grad der Übereinstimmung, mit dem ein Test mißt, was er messen soll bzw. die Generalisierbarkeit des gemessenen Merkmals auf das Verhalten außerhalb der Testsituation
  • Validität ist keine Eigenschaft des Tests, sondern die Bedeutung der Testwerte und wie sie gebraucht werden

Wie lautet die Definition von Validität?

Ein Test gilt als valide, wenn er das Merkmal, das er messen soll, auch wirklich mißt und nicht irgendein anderes.

Was bedeutet eine hohe Validität?

Man ...

... kann vom beobachteten Verhalten innerhalb der Testsituation auf das Verhalten außerhalb der Testsituation schliessen

... kann vom beobachteten Verhalten innerhalb der Testsituation auf Fähigkeiten, Dispositionen und Persönlichkeit als Grundlage für Verhalten schliessen

Man benötigt unterschiedliche Methoden zur Validitätsbestimmung, je nach Zweck:

  • Bewerten: Vergleich mit der Leistung einer anderen Person
  • Verallgemeinern: auf ähnliche Situationen, Aufgaben
  • Extrapolieren: auf andere Bereiche außerhalb der Testsituation hochrechnen
  • Erklären: Annahmen über Konstrukte und Prozesse
  • Entscheiden: für was sich jemand eignet

Welche Methoden der Validitätsbestimmung gibt es?

  • Inhaltsvalidität: Repräsentativität der Items und eines Tests
  • Kriteriumsvalidität: praktische Anwendbarkeit der Vorhersage
  • Konstruktvalidität: Schluß über latente theoretische Konstrukte (latente Variablen)
  • Kein Routineverfahren
  • Validitätsbestimmung mittels
    • Experten (theoretische Argumente und Urteile)
    • Prädiktiven Vorhersagen (Korrelation mit Kriterien)
    • Faktorenanalyse (FA-Struktur oder konvergente/diskriminante FA)
    • Korrelation mit anderen Variablen
    • Gruppenvergleichen
    • Experimentellen Manipulationen

Was ist die Augenscheinvalidität?

  • Allgemein
  • Definition
  • Problem

 

  • Unterstützt aber nicht die Interpretation
  • Glaubhaftigkeit, Akzeptanz eines Tests
  • Testanwender erkennt, was der Test mißt, sinnvoll für Motivation

Definition: Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests einem Laien vom bloßen Augenschein her gerechtfertigt erscheint.

Problem: soziale Erwünschtheit als Folge

Was ist Inhaltsvalidität?

  • Allgemein
  • Definition
  • Hauptziel

Definition: Unter Inhaltsvalidität versteht man, inwieweit ein Test oder ein Testitem das zu messende Merkmal repräsentativ erfaßt.
Repräsentativität der Items und eines Tests (Repräsentationsschluß)

  • Ideal: enumerative Lösung, vollständige Auflistung aller relevanten Items
  • Real: Annäherungslösung, exemplarische Auswahl relevanter Items

Inhaltsvalidität umfaßt Aufgabenstamm/Stimulusteil und Antwortformat/Reaktionsteil

Wichtig bei Leistungstests, moderat bei Persönlichkeitstests, weniger bei empirisch ermittelten
Tests

Reicht allein nicht zur Validitätsprüfung

Hauptziel: Verallgemeinerung der Interpretation der Testergebnisse

Merkmalsdefinitionen: Operante Definition:

  • Merkmal wird im wesentlichen durch die Testinhalte definiert, ohne theoretische Annahmen
  • Nachweis: Urteil von Fachexperten
  • Ziel: Verallgemeinerung (sind die Items repräsentativ?)

Merkmalsdefinitionen: Theoretische Definition

  • Allgemein
  • Nachweis
  • Ziel

 

Merkmal wird im Rahmen einer Theorie definiert; aufgrund des Konstrukts werden
Annahmen über unterschiedliche Testergebnisse getroffen

Nachweis: theoretische Fundierung und schlüssige Argumentation

Ziel: Verallgemeinerung und Erklärung (kann von den Items auf das theoretische Konstrukt geschlossen werden?)

Bsp.: HAWIE-R, basiert auf Intelligenz-Definition

Merkmalsdefinitionen bei fehlender Inhaltsvalidität:

Konstrukt ist unterrepräsentiert

Varianz konstruktirrelevant

Was ist Kriteriumsvalidität?

(inkl. Hauptziel)

Praktische Anwendbarkeit eines Tests für bestimmte Vorhersagen

Es kann auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium geschlossen
werden (Korrelationsschluß)

Hauptziel: extrapolierende Interpretation der Testergebnisse, dafür werden praktisch relevante externe Kriterien benötigt

Wie lautet die Definition der Kriteriumsvalidität?

Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten der Testperson innerhalb der Testsituation erfolgreich auf ein Kriterium, nämlich auf ein Verhalten außerhalb der Testsituation, geschlossen werden kann.

Was ist bei der Kriteriumsvalidität wichtig?

Sorgfältige und gut begründete Auswahl der Außenkriterien

zeitliche Verfügbarkeit der Kriterien

  • Übereinstimmungsvalidität (concurrent/konkurrente Validität)
  • Vorhersagevalidität (prognostische, prädiktive V.)
  • retrospektive Validität (postdiktive V.)

ökonomische Entscheidung

  • inkrementelle Validität

Was ist Übereinstimmungsvalidität (concurrent / konkurrente Validität)?

Zwei zeitgleiche Messungen einer Vp (Test-Score und Kriteriums-Score)

Diagnose steht im Vordergrund

Beispiel: Inventory to Diagnose Depression (IDD)
Belege für Kriteriumsvalidität: Übereinstimmung (hohe Korrelation) mit anderen Depressionsskalen

Was ist Vorhersagevalidität (prognostische, prädiktive Validität)?

Zwei Messungen, erst Test-Score, später Messung des Kriteriums

Prognose steht im Vordergrund, Test-Score soll Kriterium vorhersagen

Beispiel: Numerus clausus, zwei definierte Erfolgskriterien
Studienplätze sollen an diejenigen vergeben werden, die in möglichst kurzer Zeit das Studium absolvieren; das Studium in guter Qualität abschließen
Je höher die Testwerte, desto eher wird die erste Prüfung bestanden

Was ist die Retrospektive Validität (postdiktive Validität)?

Test-Score soll retrospektiv Verhalten „voraussagen“

Erklärung steht im Vordergrund

Beispiel: Körperlicher und sexueller Kindesmißbrauch: Studie untersuchte, ob Männer, die jemanden vergewaltigten, als Kinder eher körperlich und/oder sexuell mißbraucht worden sind

Was ist die Inkrementelle Validität?

Es ist das Ausmaß, in dem die Vorhersage des praktisch relevanten externen Kriteriums verbessert werden kann, wenn zusätzlich Testaufgaben oder Testskalen zu den bereits existierenden hinzugenommen werden (Abgrenzung zu Reliabilität!).

Frage, ob es sinnvoll ist, bei mehreren Prädiktoren noch einen neuen Test anzuwenden, oder ob dieser keinen Gewinn in bezug auf die Vorhersage bringt.

Validität und Stichprobengrösse:

Je kleiner die Stichprobe, desto wahrscheinlicher der Einfluß der Zufallsvarianz

Folge: Cross-Validation

Validität und Test-Bias und Fairneß

Tests können für verschiedene Personengruppen unterschiedlich schwierig sein und zu einer systematischen Benachteiligung führen

Lösung: kulturfreie Tests

Validität und Teaching to the test:

Validität gefährdet, wenn gezielt auf den Test hingearbeitet wird (Testitems erfassen eigentlich nur Stichproben von Wissensinhalten)

Bsp. Test zur Evaluation des Bildungssystems: falls der Test regelmäßig eingesetzt wird, besteht die Gefahr, daß nicht mehr Wissensinhalte geprüft werden, sondern wie gut die Schüler auf den Test vorbereitet wurden