Bodeneffekte
Prüfung mit vielen Bodeneffekten...
Prüfung mit vielen Bodeneffekten...
Kartei Details
Karten | 323 |
---|---|
Sprache | Deutsch |
Kategorie | Berufskunde |
Stufe | Universität |
Erstellt / Aktualisiert | 26.05.2013 / 18.08.2013 |
Weblink |
https://card2brain.ch/box/bodeneffekte
|
Einbinden |
<iframe src="https://card2brain.ch/box/bodeneffekte/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Vorgehensweise Normierung eines Tests:
1. Repräsentative Stichprobe
Normierungsstichprobe soll bezüglich der Bezugsgruppe der Vp repräsentativ sein, ihr also in allgemeinen Merkmalen möglichst ähnlich sein (Alter, Geschlecht usw.)
Leistungs-, Fähigkeits- oder Merkmalsbereiche der Stichprobe sollen mit der Zielgruppe vergleichbar sein
Referenzgruppenspezifische Normen möglich (z. B. Alter, Geschlecht)
Was ist ein Prozentrang?
Ein Prozentrang gibt an, wieviel Prozent der Bezugsgruppe / Normierungsstichprobe einen Testwert erzielten, der ebenso hoch oder niedriger ist, wie der Testwert xv der Testperson v.
Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert xv begrenzt wird.
Prozentrang ≠ wieviel Prozent korrekt gelöst!
Wie wird ein Prozentrang gebildet?
Vorgehensweise:
- Testwerte der Normierungsstichprobe in aufsteigende Rangordnung bringen
- Häufigkeiten der einzelnen Testwertausprägungen erfassen
- Kumulierte Häufigkeiten bis einschließlich Testwert bestimmen
- Diese durch N dividieren und mit 100 multiplizieren
- Normtabelle erstellen: jedem Prozentrang von 1 bis 100 werden die jeweils zugehörigen Testwerte zugeordnet
Was ist ein Perzentil?
Das Perzentil bezeichnet jenen Testwert xv, der einem bestimmten Prozentrang in der Normierungsstichprobe entspricht.
Unterscheidung Perzentil vs. Prozentrang:
Perzentil = Testwert eines Prozentrangs
Wie berechnet man das Perzentil?
1. Prozentrang berechnen
2. Testwert ablesen
Eigenschaften vom Prozentrang:
- Prozentrang ist abhängig von Vergleichsstichprobe
- Leichte Verständlichkeit
- Ordinalskalenniveau ausreichend
- Auch bei intervallskalierten Testwerten kann keine Prozentrangdifferenz als Vergleich herangezogen werden
- Keine bestimmte Verteilungsform gefordert
Problem: bei hoher Dichte sehen Merkmalsunterschiede größer aus, als sie wirklich sind; die eigentliche Skala wird verzerrt
Bildung von standardisierten zv-Normwerten (verteilungsunabhängig)
- z-Werte ermöglichen Vergleich von Testwerten verschiedener Skalen
- Man erhält sie durch lineare Transformation der Testwerte
- Voraussetzung: intervallskalierte Daten
- zv-Normen geben die Position des Testwerts einer Vp an als Abstand/Differenz zum arithmetischen Mittelwert der Verteilung der Bezugsgruppe (relativiert anhand der Standardabweichung)
Wie lautet die Definition des zv-Normwertes?
Der zv-Normwert gibt an, wie stark der Testwert xv einer Testperson v vom Mittelwert x quer der Verteilung der Bezugsgruppe in Einheiten der Standardabweichung SD(x) abweicht.
zv-Normwerte: Mittelwert = 0 und Standardabweichung SD(z) = 1
Ist ein z-Wert negativ, liegt der Testwert unter dem Mittelwert der Verteilung
Prozentränge bei zv-Normwerten
Können Direkt in der Tabelle B in Bozt abgelesen werden
Normierung vs. Normalisierung:
Lineare Transformationen normalisieren nicht, bewahren die originalen Verhältnisse
Verteilung wird nicht verändert, schief bleibt schief
Daher Vergleich mit anderen Verteilungen nur bedingt möglich
Was muss man bezüglich der Aktualität der Normen beachten?
Gültigkeit mindestens alle 8 Jahre prüfen, ggf. Neunormierung
Was ist der Flynn-Effekt?
In westlichen Industrieländern stieg der mittlere IQ über die
Jahre an, weil Testnorm veraltet
Kriteriumsorientierte Testwertinterpretation: Voraussetzungen
Einsatzmöglichkeiten
a priori genaue inhaltliche Vorstellungen (Definition) von der theoretischen Grundgesamtheit der Aufgaben des interessierenden Konstrukts
Definition der Grundgesamtheit des Aufgabenbereichs oft durch Expertenpanels
Anwendbar bei Leistungs- oder Lernzieltests und bei Fragebögen meist unmöglich
ROC-Analyse:
- Sensitivität/Trefferquote:
- Spezifität/Quote korrekter Ablehnungen/Correct rejection:
- Quote falscher Alarme/False alarms:
- Verpasserquote/False rejection:
- Effizienz:
- richtig positive (RP)
- richtig negative (RN)
- falsch positive (1 - Spezifität) (FP)
- falsch negative (1 - Sensitivität) (FN)
- Anteil insgesamt richtiger Klassifikationsentscheidungen
(RP + RN) / (RP + FP + RN + FN)
Abhängigkeit von Sensitivität und Spezifität
Sensitivität und Spezifität sind abhängig voneinander, nämlich gegenläufig
Beide sind abhängig vom gesetzten Schwellenwert (Cut-off-point)
- Schwellenwert ↑ = Sensitivität ↓ Spezifität ↑, Schwellenwert ↓ = Sensitivität ↑ Spezifität ↓
- Schwellenwert ↑ = mehr richtig positive (RP), aber auch mehr falsch negative (FN), also eine höhere Verpasserquote; gefährliche Krankheit: Schwellenwert eher niedrig setzen
ROC-Analyse ermöglicht Darstellung von Sensitivität und Spezifität bei verschiedenen
Referenzwerten
Was besagt der Youden-Index?
Punkt/Schwellenwert, an dem die Trennung von Sensitivität und Spezifität am besten gelingt
Youden-Index = Sensitivität + Spezifität – 1
Was ist die Probabilistische Testtheorie (Item-Response-Theorie, IRT)?
- Psychologisches Konstrukt beeinflußt Testverhalten, das Testverhalten wiederum die Testauswertung und darüber auch das psychologische Konstrukt
- Testtheorien befassen sich mit der Frage, wie empirische Testwerte mit den zu messenden (tatsächlichen) Merkmalsausprägungen zusammenhängen
- Testtheorien definieren Anforderungen, denen ein Test genügen muß, um von den empirischen Testwerten auf die tatsächliche Merkmalsausprägung schließen zu können
Klassische vs. Probabilistische Testtheorie
Klassische Testtheorie (KTT)
- Ausgangslage: Testergebnis entspricht direkt dem Ausprägungsgrad des wahren Merkmals (wenn auch mit Meßfehlern behaftet)
- Beziehung zwischen Merkmal der Person und Testergebnis ist a priori deterministisch und nicht empirisch prüfbar (axiomatisch)
Probabilistische Testtheorie (Item-Response-Theorie, IRT)
- Ausgangslage: Explizite Unterscheidung zwischen latenter Merkmalsebene und manifester Testebene und das Testergebnis dient lediglich Indikator für entsprechendes Merkmal
- Beziehung zwischen Merkmal und Indikator ist – meist als Funktion ausgedrückt – in der Regel probabilistisch (im Extremfall deterministisch)
- Hauptunterschied zur KTT: bei der IRT kann eine hypothetisch festgelegte Funktionsform empirisch auf tatsächliches Vorliegen geprüft werden
Was besagt die Itemhomogenität in der IRT?
Liegt vor, wenn alle Items dieselbe latente Variable/Konstrukt messen
latente Variable als Ursache für die Korrelationen zwischen den manifesten Variablen: Notwendige Bedingung: Vorliegen mehrerer untereinander korrelierender manifester Variablen/Items
Problem: Korrelationen könnten nicht durch die latente Variable verursacht worden sein, sondern durch etwas anderes, deshalb als hinreichende Bedingung: Itemhomogenität bezüglich der latenten Variable
Überprüfung der Itemhomogenität: Mittels: lokale stochastische Unabhängigkeit
Annahme: es handelt sich um genau eine latente Variable
Diese latente Variable ist für das Zustandekommen der Antworten auf bestimmte Items verantwortlich und produziert daher deren Korrelationen (Zusammenhänge)
Zusammenhänge/Korrelationen verschwinden, wenn man die latente Variable konstant hält / ausschaltet: lokale stochastische Unabhängigkeit
Überprüfung der lokalen stochastischen Unabhängigkeit:
Multiplikationstheorem für unabhängige Ereignisse:
Überprüfung der lokalen stochastischen Unabhängigkeit:
Multiplikationstheorem für abhängige Ereignisse:
bei abhängigen Ereignissen ist die Verbundwahrscheinlichkeit größer als das Produkt der Einzelwahrscheinlichkeiten; das heißt, das Lösen von Item i erhöht die Wahrscheinlichkeit für das Lösen von
Item j
Welche IRT-Modelle gibt es?
- Latent-Class-Modelle
- Latent-Trait-Modelle
- deterministische Modelle
- probabilistische Modelle
IRT-Modelle
Latent-Class-Modelle
qualitative kategoriale latente Klassen zur Charakterisierung von Personentypen
IRT-Modelle:
Latent-Trait-Modelle
- deterministische Modelle
- probabilistische Modelle
Latent-Trait-Modelle: quantitative kontinuierliche latente Variablen
deterministische Modelle: Antwortverhalten wird vollständig durch Item- und Personenparameter bestimmt
probabilistische Modelle: stochastische Beziehung zwischen Antwortverhalten und Item- und Personenparameter
IC-Funktion ( i tem c harakteristische Funktion, auch itemcharacteristic curve, ICC)
Darstellung der Beziehung zwischen manifestem Antwortverhalten und der Ausprägung der latenten Traits als mathematische Gleichung
Was ist eine IC-Funktion?
Lösungswahrscheinlichkeit P(xvi = 1) in Abhängigkeit des Schwierigkeitsparameters des Items (σi) und der individuellen Ausprägung der latenten Variable ξv (Personenparameter)
Probabilistische Modelle (nach Anzahl Parameter)
- Einparameter-logistisches (1PL-)Modell/Rasch-Modell (dichotome Items)
- Zweiparameter-logistisches (2PL-)Modell/Birnbaum-Modell
- Dreiparameter-logistisches (3PL-)Modell/Rate-Modell von Birnbaum
- Lösungswahrscheinlichkeit einer Person mit Personenparameter ξ in Abhängigkeit vom Itemschwierigkeitsparameter σ
- Lösungswahrscheinlichkeit einer Person mit Personenparameter ξ in Abhängigkeit vom Itemschwierigkeitsparameter σ und Itemdiskriminationsparameter λ
- Lösungswahrscheinlichkeit einer Person mit Personenparameter ξ in Abhängigkeit vom Itemschwierigkeitsparameter σ, Itemdiskriminationsparameter λ und Rateparameter ρ
Probabilistische IC-Funktionen:
- Personenparameter ξ
- Schwierigkeitsparameter σ
- Fähigkeit einer Person, ein bestimmtes Item zu lösen
- Merkmalsausprägung ξ, bei der die Lösungswahrscheinlichkeit für Item i .50 beträgt. An dieser Stelle hat die Kurve ihren Wendepunkt. ⇒ Anforderung, die ein Item an die Fähigkeit der Vp stellt
Was besagt die Joint Scale?
Personenparameter und Schwierigkeitsparameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden (Joint Scale)
Von der Ausprägung beider Parameter soll nun wiederum probabilistisch abhängen, ob ein Item gelöst wird oder nicht
Entscheidende Größe für die Lösewahrscheinlichkeit P(xvi = 1): Differenz ξv – σi (Personenparameter minus Schwierigkeitsparameter)
Richtwerte bei der Joint-Scala:
ξv > σi: Fähigkeit der Vp übertrifft Schwierigkeit des Items (P(xvi = 1) > .5)
ξv = σi: Fähigkeit der Vp entspricht genau der Schwierigkeit des Items (P(xvi = 1) = .5)
ξv < σi: Fähigkeit der Vp bleibt hinter der Schwierigkeit des Items zurück (P(xvi = 1) < .5)
Probabilistische IC-Funktionen:
Diskriminationsparameter λ
Maß der Sensitivität der Items für Merkmalsunterschiede (ähnlich wie Trennschärfe der Itemanalyse). Berücksichtigt, daß Items unterschiedlich gut zwischen schwächeren und stärkeren Merkmalsausprägungen trennen können.
Je steiler die Kurve, desto besser differenziert das Item (Diskriminationsparameter λ)
Bestimmt die Steilheit der IC-Funktion
Je größer der Diskriminationsparameter λ, desto besser die Diskrimination
Beim dichotomen Rasch-Modell gilt λ = 1 (maximale Diskrimination), IC-Funktionen verlaufen parallel
Probabilistische IC-Funktionen:
Rateparameter ρ
Berücksichtigt die Ratewahrscheinlichkeit (z. B. bei MC-Aufgaben)
Merkmale des Rasch-Modells:
Itemschwierigkeitsparameter
- Itemdiskriminationsparameter (konstant = 1)
- spezifische Objektivität
- Rasch-Modell ist stichprobenunabhängig
- Rasch-homogene Items haben alle dieselbe Form (Itemdiskriminationsparameter konstant = 1), aber parallele Verschiebung bzgl. der ξ-Achse (unterschiedliche Schwierigkeitsparameter)
Vorgehensweise beim Rasch-Modell
1. Parameterschätzung
2. Modelltest
Vorgehensweise beim Rasch-Modell:
1. Parameterschätzung
Problem: Personen- und Schwierigkeitsparameter unbekannt, nur Schätzung möglich
Ausgangspunkt: Datenmatrix, Parameter können aus Zeilen- und Spalten-Scores geschätzt werden
Spaltensumme: Schwierigkeitsparameter: Je kleiner Wert, desto schwieriger das Item (wie Schwierigkeitsindex Itemanalyse)
Zeilensumme: Personenparameter: Je kleiner der Wert, desto geringer die Fähigkeit der Vp (!), weil weniger Punkte erreicht
Gesucht: optimale Schätzungen für Parameter (nicht absolute Werte, sondern Rangreihenfolge wichtig; Konvention: Mittelwert der Itemparameter = 0): Mit Likelihoodfunktion überprüfen, mit welcher Wahrscheinlichkeit die Parameterschätzungen zu den Daten passen (Werte 0-1)
- hohe Likelihood-Werte: günstige Parameterschätzung
- niedrige Likelihood-Werte: ungünstige Parameterschätzung
Likelihoodfunktion L: Angabe über die Wahrscheinlichkeit aller beobachteten Daten (kein statistisches Prüfverfahren)
Parameterschätzung sollte so oft wiederholt werden, bis der höchste Likelihood- Wert gefunden wird
Vorgehensweise beim Rasch-Modell:
2. Modelltest
Test, um Güte der Annahmen zu prüfen
postulierte Stichprobenunabhängigkeit überprüfen
1. Graphischer Modelltest: für zwei Substichproben wird für jedes Item der Itemparameter abgetragen. Je näher die Punkte an der Hauptdiagonalen liegen, desto größer die Stichprobenunabhängigkeit und desto eindeutiger die Rasch-Homogenität
2. Likelihood-Quotienten-Test
- Parameterschätzungen für zwei Substichproben
- Signifikanztest auf Unterschiedlichkeit
- wenn signifikant: keine Modellkonformität, Unterschiede vorhanden (genau wie beim Kolmogorv-Smirnov-Test)