Lernkartei Diagnostische Psychologie (Seite 2 von 7)

Karten	273
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	21.07.2018 / 15.07.2024
Weblink	https://card2brain.ch/box/20180721_diagnostische_psychologie
Einbinden	<iframe src="https://card2brain.ch/box/20180721_diagnostische_psychologie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Itemkennwerte

Schwierigkeit: Bewertungsskala

Problem: bei einer Bewertungsskala (Ratingskala) lässt sich die Definition nicht anwenden.
Definition des Schwierigkeitsindex für mehrstufige Itemantworten:

Pm = von allen Vpn erreichte Punktzahl/von allen VPn erreichbare Punktzahl x 100

Wobei die niedrigste Kategorie mit 0 kodiert sein muss!

Itemkennwerte

Trennschärfe: Definition

Die Trennschärfe rit ist die Korrelation zwischen dem Itemscore (Itemwert) und dem Testscore (Summenwert) der entsprechenden Skala.
Die Trennschärfe rit ist ein Kennwert für das Ausmaß der Übereinstimmung zwischen Item und Skala bezüglich der Differenzierung der Probanden (Löser vs. Nichtlöser)

--> Wenn ein Proband ein Item gelöst hat, hat er dann auch den Test insgesamt gut bestanden?

--> „Wie repräsentativ ist das Item für den Test?“

Die formale Berechnung hängt von den Skalenniveaus des Items und des Testscores ab.
Testscore

--> kontinuierlich quantitativ abgestufte Variable

--> meist Intervallskala angenommen

Item

--> Nominalskala bei dichotomen Antworten

--> Intervallskala bei Bewertungsskala mit wenigstens 5 Abstufungen

Itemkennwerte

Trennschärfe: Interpretation

Trennschärfe = Ausmaß der Übereinstimmung zwischen Item und Skala bezüglich der Differenzierung der Probanden (Löser vs. Nichtlöser)
Je höher die Trennschärfe, desto mehr trägt ein Item zur Differenzierung der Probanden durch den Test bei.
Je höher die Trennschärfe, desto „besser“ ist ein Item für den Test --> ... falls alle anderen Indices (Schwierigkeit, Homogenität) gleich sind.
Aber: für die Itemselektion müssen auch die anderen Itemkennwerte berücksichtigt werden (bes. die Schwierigkeit) sowie die Iteminhalte (> Validität)

Itemkennwerte

Trennschärfe bei intervallskalierten Items

= Produkt-Moment-Korrelation: rit= cov(I,Y)/Std(I)Std(Y)

rit = Trennschärfeindex für Item i des Test t

I = Itemscores für Item i in Stichprobe

Y = Testscores (= Summenscores) für Test t in Stichprobe

Itemkennwerte

Trennschärfe: dichotome Items

Berechnung über die punkt-biseriale Korrelation möglich.
Einfachere Lösung: Wenn die dichotome Variable eindeutig kodiert wurde (z.B. 0 und 1), dann ist die punkt-biseriale Korrelation gleich der Produkt-MomentKorrelation

Itemkennwerte

Trennschärfe: Problem

Trennschärfe = Korrelation zwischen Itemscore und Testscore
Problem: Itemscore geht rechnerisch in Testscore ein
Beispiel

PA = PA_1 + PA_2 + PA_3 + ... + PA_10

rit = Kor(PA_1, PA)

algebraische Abhängigkeit zwischen Testscore und Itemscore führt zu einer „künstlichen“ Vergrößerung der Korrelation

--> hat PA_1 kleinen Wert so ist auch PA relativ klein

--> hat PA_1 großen Wert so ist auch PA relativ groß

--> positiver Zusammenhang zwischen PA_1 und PA

--> Korrelation zwischen Itemscore und Testscore ist immer zum Teil auch Korrelation einer Variablen mit sich selbst

Lösung: Teil-Ganz-Korrektur (part whole correction)
Um die Trennschärfe eines Items zu ermitteln, wirrd der Itemscore jeweils von der Berechnung des Testscores ausgeschlossen.

Itemkennwerte

Trennschärfe: Teil-Ganz-Korrektur

Die Trennschärfeindices werden durch die part-whole-Korrektur stets kleiner.
Je größer die Anzahl der Items in einer Skala ist, desto kleiner sind die Effekte der part-whole-Korrektur.

--> In Skalen mit vielen Items tragen die einzelnen Itemscores wenig zum Testscore bei.

Je ähnlicher die Items einer Skala sind (= je größer die „Homogenität“ der Skala ist), desto kleiner sind die Effekte der partwhole-Korrektur.

--> In homogenen Skalen erfassen alle Items dasselbe > der Beitrag eines einzelnen Items fällt weniger ins Gewicht.

Part-whole-Korrekturen sollten standardmäßig gemacht werden.

Itemkennwerte

Homogenität: Definitionen

Klassische Testtheorie: Homogen sind Items genau dann, wenn sie inhaltlich und formal übereinstimmen.
Guttman (1950): Homogen sind Items genau dann, wenn jeder Proband, der eine schwere Aufgabe löst, auch alle leichteren Aufgaben löst.
Rasch-Modell: Homogen sind Items genau dann, wenn ihre Item-Charkteristik-Kurven gleichartig verlaufen.

Itemkennwerte

Homogenität: Klassische Testtheorie

Homogenität = Ausmaß der formalen und inhaltlichen Einheitlichkeit von Items
Homogenität von Items, Homogenität von Skalen

Itemkennwerte

Homogenität: Klassische Testtheorie

Beispiele

Beispiele für homogene Skalen (erfassen spezifische Dimensionen)

--> Leistungsbereich

d2-Aufmerksamkeits-Belastungstest (Brickenkamp, 1981)

Standard Progressive Matrices (Raven, Raven et al., 2002)

--> Persönlichkeitsbereich

Tests für spezifische Merkmale, z.B. Anger In des State-Trait-Anger-ExpressionInventory (Schwenkmezger et al., 1992)

Beispiele für heterogene Skalen (erfassen globale Dimensionen)

--> Leistungsbereich

Verfahren zur Messung der Allgemeinen Intelligenz, z. B. Wechsler-Tests

--> Persönlichkeitsbereich

Tests für breite Merkmale, z.B. Extraversion, Neurotizismus, Psychotizismus, ...

Itemkennwerte

Homogenität: Klassische Testtheorie

Operationalisierung

Operationalisierung (Berechnung)

HItem = Homogenität eines Items = mittlere Korrelation eines Items mit den anderen Items einer Skala

Hgesamt= Homogenität einer Skala = mittlere Korrelation aller Items einer Skala (Mittelwert über alle Korrelationen zwischen den Items)

Itemkennwerte

Homogenität: Klassische Testtheorie

Interpretation

Ziel A: Skala soll homogen sein

es soll ein spezifisches Merkmal erfasst werden, d.h. ein eng umschriebenes Merkmal

je größer H, desto homogener ist die Skala

Ziel B: Skala soll heterogen sein

es soll ein breites Merkmal erfasst werden, d.h. ein breites Spektrum von Verhaltensweisen

je kleiner H, desto heterogener ist die Skala

Itemkennwerte

Zusammenhänge: Trennschärfe und Homogenität

Trennschärfe und Homogenität i.S. der KTT

--> Trennschärfe- und Homogenitätsindices hängen von der Interkorrelation der Items ab

Trennschärfe: Korrelation eines Itemscores mit den mittleren Scores der anderen Items

Homogenität: mittlere Korrelation eines Itemscores mit den anderen Itemscores

algebraische Abhängigkeit von Trennschärfe und Homogenität

Trennschärfe- und Homogenitätsindices sind positiv korreliert
Datenbeispiel EPQ-R (Hörsaal-Daten)

--> Trennschärfeindices der 6 Items der Skala E (punktbiseriale Korrelation, part wholekorrigiert): .55, .32, .45, .49, .38, .20;

--> Homogenitätsindices der 6 Items der Skala E (punktbiseriale Korrelation, gemittelt via Fischer‘s Z-Transformation): .37, .21, .32, ,.32, ,.24, .16;

--> Korrelationzwischen Trennschärfe- und Homogenitätsindices (Pearson-Korrelation nach Fischer‘s Z-Transformation der Indices): r = .99

Trennschärfe und Homogenität sind essentiell dasselbe: rit = f(HItem)

Itemkennwerte

Zusammenhänge: Schwierigkeit und Streuung

Die Standardabweichung eines dichtotomen Items x ist nur eine Funktion seiner Schwierigkeit

Std(x)= Wurzel aus p x q

x = dichotomes Item mit den Werten 0 und 1

p = NR/N = P/100 = Anteil aller Richtiglöser an N

Std(x) wird maximal für mittlere Itemschwierigkeit (P = 50)!

NR = Anzahl der Probanden mit dem Wert 1 (= Anzahl Richtiglöser)

N = Anzahl aller Probanden

P = Schwierigkeitsindex

q = 1 – p = 1 – NR/N = N/N – NR/N = (N – NR)/N = NF/N = Anteil aller Falschlöser an N

Itemkennwerte

Zusammenhänge: Schwierigkeit und Trennschärfe

Zusammenhang zwischen Schwierigkeit und Trennschärfe/Homogenität ist meist umgekehrt U-förmig

Mittlere Schwierigkeit und Trennschärfe

--> mittlere Werte (P = 50) bedeuten maximale Streuung der Itemscores

--> ausreichende Streuung ist eine praktische (keine theoretische!) Voraussetzung für hohe Korrelationskoeffizienten

ohne Variation einer Variablen gibt es auch keine Kovariation mit dieser Variablen

> mittlere Schwierigkeitsindices begünstigen hohe Trennschärfe- und Homogenitätsindices i.S. der KTT (garantieren sie aber nicht)

extreme/unterschiedliche Schwierigkeit und Trennschärfe

extreme Werte (P zwischen 5-10 oder 90-95) implizieren eine geringere Streuung der Itemscores

eingeschränkte Streuung vermindert meist die Korrelation

extrem unterschiedliche Werte von P sind mit hohen (positiven) Interkorrelationen der Items meist nicht vereinbar

Beispiel: N = 10 Vpn, 2 Items

Item 1, Itemscores: 1, 0, 0, 0, 0, 0, 0, 0, 0, 0

Item 2, Itemscores: 1, 1, 1, 1, 1, 1, 1, 1, 1, 0

Schwierigkeitsindices: PItem1 = 10, PItem2 = 90

Korrelation: r = 0.11

extreme/unterschiedliche Schwierigkeitsindices verhindern hohe Trennschärfeindices sowie eine hohe Homogenität der Skala (i.S. der KTT)

Itemkennwerte

Itemselektion: Grundregeln

Schwierigkeitsindex

Möglichst breite Streuung der Schwierigkeitsindices einer Skala anstreben!

--> Differenzierung der Probanden auch in den Randbereichen der Merkmalsausprägung gewährleisten!

--> Weise (1975)

niedrig: > 80

mittel: 80 - 20

hoch: < 20

Trennschärfeindex

Möglichst große Trennschärfeindices aller Items anstreben!

--> Jedes Item sollte zur Differenzierung der Probanden durch den Testscore möglichst viel beitragen!

--> Weise (1975) (part whole-korrigiert)

niedrig: < .30

mittel: .30-.50

groß: > .50
Konflikt zwischen Schwierigkeit und Trennschärfe

Unterschiedliche Schwierigkeitsindices führten zu niedrigeren Iteminterkorrelationen und somit zu niedrigeren Trennschärfeindices
Forderungen nach unterschiedlichen Schwierigkeitsindices und hohen Trennschärfeindices schließen sich aus!

Empfehlung

Items mit niedriger Trennschärfe ausscheiden
Items mit hoher Trennschärfe beibehalten (gerade auch bei extremen Schwierigkeitsindices von P = 5-10 oder P = 90-95)
Itemselektion anhand des Selektionskennwertes

Itemkennwerte

Selektionskennwert

Lienert (1989)

Sel = rit/2 x Std (x)

Sel = Selektionskennwert

rit = Trennschärfeindex

x = Itemscore

p = Schwierigkeitsgrad = P/100

q = 1 - p

Std (x) = Wurzel aus p x q

Zähler: Je größer der Trennschärfeindex rit, desto größer wird Sel. > Items mit großer Trennschärfe werden bevorzugt!

Nenner: Je extremer die Schwierigkeit eines Items, desto kleiner wird die Standardabweichung Std(x) und desto größer wird Sel. > Items mit extremer Schwierigkeit werden bevorzugt!
Selektionsregel: Das Item mit dem größeren Wert von Sel wird beibehalten.

Objektivität

Gütekriterien: Formen

Kriterien zur Beurteilung von Tests sind nicht verbindlich definiert.
Kriterienkatalog des Testkuratoriums der Föderation Deutscher Psychologenverbände:

Kriterien zu den Testgrundlagen

z.B. theoretische Grundlagen, Nachvollziehbarkeit der Testkonstruktion

Kriterien zur Testdurchführung

z.B. Durchführungsobjektivität, Transparenz, Zumutbarkeit

Kriterien zur Testverwertung

z.B. Auswertungsobjektivität, Zuverlässigkeit, Gültigkeit

Kriterien zur Testevaluation

z.B. Ökonomie, Fairness, Vergleichbarkeit

Kriterien zur äußeren Testgestaltung

z.B. Verständlichkeit des Testmanuals und der Testmaterialien

Objektivität

Gütekriterien: Formen 2

DIN 33430 zur Eignungsbeurteilung

Normierung der Bewerberauslese durch Leistungstests

„Verbraucherschutz“

Hauptgütekriterien

Objektivität

Reliabilität

Validität

Nebengütekriterien

Normierung

Testfairness

Objektivität

Objektivität: Definition und Formen

Objektivität = Ausmaß, in dem die Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind
Objektivität kann in verschiedenen Phasen der Testung gefährdet sein

Durchführung, Auswertung, Interpretation

Formen der Objektivität

Durchführungsobjektivität

Auswertungsobjektivität

Interpretationsobjektivität

Objektivität

Gefährdung und Gegenmaßnahmen

Gefährdung

unterschiedliche Instruktionen
unterschiedliche Launen des Testleiters, Auswerters, Gutachters,…

Gegenmaßnahmen:

– maximale Standardisierung der Testsituation

identische Testmaterialien und Zeitvorgaben
identische Instruktionen (schriftliche Vorgabe oder auswendig gelernt)
Regeln, wie auf Nachfragen oder Störungen reagiert wird
minimale soziale Interaktion zwischen Testleiter und Testperson

– maximale Standardisierung der Testauswertung

– Interpretation mittels statistischer Regeln

Ermittlung der individuellen Position eines Probanden in der Population anhand von Normtabellen, z.B. IQ = 130 >> Prozentrang 97.7

Objektivität

quantitative Stimmung

quantitative Bestimmung

Theorie:
jeder Proband wird von verschiedenen Testleitern mit demselben Verfahren untersucht, ausgewertet bzw. interpretiert
Objektivität = (mittlere) Korrelation der Testergebnisse zwischen verschiedenen Testleitern

– Unterschiedlich „strenge“ Bewertungen durch die Testleiter > Mittelwertsvergleiche, Intraklassen-Korrelation

Praxis:
mehrfach wiederholte Testdurchführung bei denselben Probanden kaum sinnvoll
üblicherweise selten quantitativen Angaben
Bewertung der Objektivität anhand von Plausibilitätserwägungen

Reliabilität

KTT - Latente Variablen

Ausgangspunkt: Zufallsvariablen für eine Person

Die konkrete Person „Adam“ wird wiederholt aus einer Population von Personen U gezogen.
Mit der Person wird immer wieder derselbe Test durchgeführt.
Es resultieren die Testwerte Yi (= „Zufallsvariable“)
Diese Werte sind mit unsystematischen Messfehlern behaftet und weisen deshalb eine intraindividuelle Verteilung auf.

True-Score (wahrer Wert) der Person

Der True-Score "tau"Adam der Person „Adam“ wird definiert als bedingter Erwartungswert von Yi, gegeben die Person „Adam“:

"tau" Adam := E(Yi/U = Adam)

Fehlerwerte

Die Abweichungen der Testwerte Yi vom True-Score "tau" Adam werden definiert als Fehlerwerte "epsilon"i:

"epsilon"i := Yi - "tau"Adam = Yi - E(Yi/U = Adam)

Reliabilität

KTT- Konsequenzen

Die True-Score-Variable "tau"i kann als als Regression der Testvariablen Yi auf die Personen U aufgefasst werden.

Yi= "tau"i+ "epsilon"i= E (Yi/U)+ "epsilon"i

Prädiktor: Personen U
Kriterium: Testvariable Yi
vorhergesagte Werte: Regression "tau"i := E(Yi/U)
Residuum: Fehlervariable "epsilon"i

• Die Testvariablen Yi lässt sich also additiv zerlegen in ihre TrueScore-Variable "tau"i und ihre Fehlervariable "epsilon"i

Reliabilität

KTT- Konsequenzen II

Wie für alle Regressionen gelten auch hier die üblichen Eigenschaften:

Der Erwartungswert des Residuums ist null --> E("epsilon"i)=0
Vorhergesagter Wert und Residuum korrelieren zu null --> Cov("epsilon"i, "tau"i)= 0
Achtung: diese Konsequenzen können in keiner empirischen Anwendung falsch sein!

Reliabilität

KTT. Konsequenzen III

Die Varianz der Testvariablen Yi lässt sich additiv zerlegen in die Varianzen der True-Score-Variablen und Fehlervariablen: Var(Yi) = Var ("tau"i)+ Var ("epsilon"i)

Reliabilität

Reliabilitätskoeffizient

Der Reliabilitätskoeffizient ist definiert als der Anteil der Varianz einer Testvariable Yi, der auf die Varianz der True-Score-Variable "tau"i zurückgeführt werden kann:

Rel(Yi) = Var("tau"i)/Var(Yi) = Var("tau"i)/Var ("tau"i)+ Var("epsilon"i)

maximaler Wert: für Var("epsilon"i)=0 --> Rel(Yi)= 1
minimaler Wert: für Var("epsilon"i)= unendlich --> Rel(Yi)= 0
Der Reliabilitätskoeffizient hängt offensichtlich von zwei Faktoren ab:

-Varianz der True-Score-Variable > Stichprobe!

-Varianz der Fehlervariable > Test!

„Reliabilität“ ist keine Eigenschaft eines Tests!
„Reliabilität“ ist eine Eigenschaft einer Zufallsvariable!
Zur Berechnung des Reliabilitätskoeffizienten muss die Varianz der True-Score-Variablen bekannt sein.
... ist sie aber nicht! Der Reliabilitätskoeffizient kann also niemals berechnet werden!
... aber er kann unter bestimmten Annahmen geschätzt werden! (> „Messmodelle“)

Reliabilität

Schätzung des Reliabilitätkoeffizienten

Schritt 1: doppelte Messung

Y1 = tau1+epsilon 1 --> Var (Y1)= Var(tau1)+Var(epsilon1)

Y2= tau2+epsilon2 ---> Var(Y2)= Var(tau2)+Var(epsilon2)

Schritt 2: Annahmen

1) beide True-Scores sind identisch

tau1 = tau2

--> Gleichungen vereinfachen sich

Y1 = tau + epsilon1 --> Var(Y1) = Var(tau) + Var(epsilon1)

Y2 = tau + epsilon 2 --> Var(Y2) = Var(tau) + Var(epsilon 2)

2) Fehler sind untereinander unkorreliert

--> Cov(epsilon 1, epsilon 2) = 0

--> Var (tau) ist berechenbar

---> Var (tau) = Cov (Y1,Y2)

---> Modell essentiell tau-äquivalenter Variablen ist ein Messmodell

--> Reliabilitätsschätzung:

Rel (Y1) = Cov (Y1, Y2)/Var (Y1)

Rel (Y2) = Cov (Y1, Y2)/Var (Y2)

Reliabilität

Praktische Realisierung der "doppelten Messung"

Wiederholte Messung mit demselben Test (Retest-Methode)
Messung mit zwei „parallelen“ Tests (Paralleltest-Methode)
Halbierung des Tests (Testhalbierungs-Methode)

Reliabilität

Retest - Methode

Jeder Proband wird mit einem bestimmten Zeitintervall zweimal mit exakt demselben Test untersucht (es resultiert Y1 und Y2).

--> Annahme 1: essentielle tau-Äquivalenz tau1 = tau2 =: tau

Bedeutung der Annahme

--> Annahme der absoluten zeitlichen Stabilität des True-Scores!

--> Annahme, dass es keine Testwiederholungs-Effekte gibt!

Verletzung der Annahmen

--> Falls sich die True-Scores der Probanden zwischen den beiden Messgelegenheiten unsystematisch verändern, reduziert sich die Kovarianz zwischen Y1 und Y2

--> Konsequenz: Rel (Yi) wird unterschätzt

Verletzung der letzteren Annahme

--> Falls sich die True-Scores der Probanden zwischen den beiden Messgelegenheiten systematisch verändern, erhöht sich evtl. die Kovarianz zwischen Y1 und Y2

Konsequenz: Rel (Yi) wird überschätzt

Bewertung: diese Annahme muss stets bedacht werden!

---> Annahme 2: unkorrelierte Fehler Cov(epsilon1, epsillon2) = 0

Bedeutung der Annahme

--> Probanden-spezifische Fehler wiederholen sich nicht!

--> Fehler sind nicht systematisch bezüglich Personen!

Verletzung der Annahme

--> Falls die Fehler zwischen den beiden Messgelegenheiten positiv korrelieren, erhöht dies die Kovarianz zwischen Y1 und Y2

--> Konsequenz: Rel (Yi) wird überschätzt

Bewertung: technische Annahme, könnte aber verletzt sein

Reliabilität

Retest- Methode: Wahl des Zeitraums

Dilemma

Option 1

Erinnerungs- und Übungseffekte sollen vermieden werden (um Annahme der essentiellen tau-Äquivalenz nicht zu gefährden)
besonders bei Leistungstests!
also möglichst langes Zeitintervall wählen!

Option 2

wahre Veränderungen des zu messenden Merkmals sollen nicht auftreten (um Annahme der essentiellen -Äquivalenz nicht zu gefährden)
gilt für alle Tests!
also möglichst kurzes Zeitintervall wählen!

Reliabilität

Retest-Methode: Bewertung

Retest-Methode besonders angemessen bei Persönlichkeitstests (wegen hoher Stabilität der Merkmale)
Retest-Methode umso problematischer bei Leistungstests, je mehr die Probanden von einer Testwiederholung profitieren können durch Übungs- und Lerneffekte

--> reine Speed-Tests (z.b. d2): wenig problematisch; Power- und Mischtests: problematischer

Reliabilität

Paralleltest-Methode

Jeder Proband wird einmal mit zwei „parallelen“ Formen des Tests untersucht (es resultiert Y1 und Y2).

Annahme 1: essentielle tau-Äquivalenz

Bedeutung der Annahme

--> Beide Tests messen (trotz unterschiedlicher Items) exakt denselben True-Score!

Verletzung der Annahme

--> Falls sich die True-Scores der Probanden zwischen den beiden Parallelformen unsystematisch unterscheiden („beide Tests messen nicht exakt denselben True-Score“), reduziert sich die Kovarianz zwischen Y1 und Y2 • Konsequenz:

--> Rel (Yi) wird unterschätzt

--> auch bei Parallel-Tests können Übungs- und Lerneffekte auftreten!

Bewertung: diese Annahme muss stets bedacht werden!

Annahme 2: unkorrelierte Fehler

Bedeutung der Annahme

--> Probanden-spezifische Fehler wiederholen sich nicht!

--> Fehler sind nicht systematisch bezüglich Personen!

Verletzung der Annahme

--> Falls die Fehler zwischen den beiden Parallelformen positiv korrelieren, erhöht dies die Kovarianz zwischen Y1 und Y2

--> Rel (Yi) wird überschätzt

Bewertung: eher technische Annahme

--> aber: Fehlerübertragung (error propagation)

--> z.B. situative Faktoren falls beide Parallelformen in derselben Situation bearbeitet werden (Baustellenlärm bei Konzentrationstest) oder Nervosität einer Person

Reliabilität

Paralleltest- Methode

„Parallelität“ von Testformen

- gleiche Mittelwerte

- gleiche Standardabweichungen

- Korrelationen nahe 1 --> zwischen den wahren Werten per Definition 1

Herstellung von parallelen Testformen ist schwierig

- besonders bei eng begrenzten Eigenschaften

- Universum der möglichen Items ist begrenzt

Meist gibt es keine streng parallelen Testformen!
Ausnahme: reine Speed-Tests (z.B. d2)

- Items innerhalb eines Tests sind sehr ähnlich oder sogar identisch

- derselbe Test kann als „Parallelform“ aufgefasst werden

- Retest-Methode ist dann dasselbe wie Paralletest-Methode

Reliabilität

Testhalbierungmethode

Jeder Proband wird einmal mit einem Test untersucht.
Die Items werden auf zwei gleichgroße Test„hälften“ aufgeteilt (es resultiert Y1 und Y2).

Reliabilität

Aufteilungsmethoden (Power- und Mischtests)

Split-Half

Testhälfte 1 = erste Hälfte aller Items
Testhälfte 2 = zweite Hälfte aller Items

Odd-Even-Split

Testhälfte 1 = alle Items mit ungerader Nummer
Testhälfte 2 = alle Items mit gerader Nummer

Random Split: zufällige Aufteilung

Aufteilung über Itemkennwerte

Paarlinge von Items mit gleicher Schwierigkeit/Trennschärfe bilden
Zufällige Zuweisung von einzelnen Items der Paarlinge auf beide Testhälften

Reliabilität

Aufteilungsmethoden (Speed Test)

Testscore = Anzahl der gelösten Items
Problem: übliche Aufteilungsmethoden lassen sich nicht anwenden
Lösung: Halbierung nach der Testzeit

Reliabilität

Testhalbierungsmethode- Annahmen

Annahme 1: essentiellen tau-Äquivalenz

Bedeutung der Annahme

--> Beide Testhälften messen (trotz unterschiedlicher Items) exakt denselben True-Score!

Verletzung der Annahme

--> Falls beide Testhälften nicht exakt denselben True-Score messen, reduziert sich die Kovarianz zwischen Y1 und Y2

--> Rel (Yi) wird unterschätzt

Bewertung: diese Annahme muss stets bedacht werden

Annahme 2: wie bei anderen Methoden

Reliabilität

Testhalbierungsmethode- Probleme

Besonderes Problem

Die Methode gestattet zunächst nur eine Schätzung der Reliabilität der Testhälften
Gesucht ist aber eine Schätzung der Reliabilität des gesamten Tests
Lösung: Hochrechnung der Reliabilität für gesamten Test mit Spearman-Brown-Formel

Reliabilität

Testhalbierungsmethode- Beurteilung

zahlreiche Störfaktoren lassen sich ausschließen

--> Schwankung der Motivation, Stimmung, Aufmerksamkeit

--> wahre Veränderungen des Merkmals

--> Störfaktoren wirken auf beide Testhälften gleichermaßen

Methode kommt der Beschreibung einer instrumentellen Messgenauigkeit sehr nahe.
Problem: beide Testhälften müssen äquivalent sein!

Diagnostische Psychologie

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google