Diagnostik Vorlesung
Fragen zur VorlesungWürzburg 2024/25
Fragen zur VorlesungWürzburg 2024/25
Kartei Details
Karten | 87 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 10.02.2025 / 14.02.2025 |
Weblink |
https://card2brain.ch/box/20250210_diagnostik_vorlesung
|
Einbinden |
<iframe src="https://card2brain.ch/box/20250210_diagnostik_vorlesung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was ist der Schwierigkeitsindex P? (Definition + Formel)
P = relative Anzahl von Probanden, die im Sinne der Merkmalsausprägung antworten (hohe Werte bei leichten Aufgaben, „Leichtigkeitsindex“)
P = (NR/N) x 100
Welche Schwierigkeit wird angestrebt? Was sind Probleme extremer Schwierigkeit?
- Extreme Schwierigkeit: keine Differenzierung zw. VP bei maximaler (P=100) oder minimaler (P=0) Schwierigkeit, Differenzierung in Randbereichen
- Mittlere Schwierigkeit (P=50): maximale Differenzierung zw. VP mit mittlerer Merkmalsausprägung (große Streuung) → aber: keine Abgrenzung der Extrembereiche
- Deshalb: breite Streuung der Schwierigkeit von Items in einer Skala wird angestrebt (5<P<95)
Welche Probleme gibt es bei der Schwierigkeit und wie können diese behoben werden?
- Schwierigkeitskoeffizient kann nur interpretiert werden, wenn Einfluss von Zufall ausgeschlossen werden kann → Korrektur von Zufallseinflüssen
- Schwierigkeitskoeffizient kann nur interpretiert werden, wenn alle Items beantwortet wurden (nicht bei Zeitbegrenzung) → Korrektur für Zeitbegrenzung
- Schwierigkeitsindex kann nur für dichotome Items berechnet werden → Berechnung von abgestuften Bewertungsskalen
- Auf Item-Schwierigkeit kann nur geschlossen werden, wenn Leistungsniveau der Probanden bekannt → Rasch-Skalierung
Wie geht man bei der Zufallskorrektur vor?
- Für eine Stichprobe wird Anzahl an Personen, die Aufgabe richtig gelöst haben, NR ersetzt durch Anzahl der Personen, die erwartungsgemäß diese Aufgabe durch Fähigkeit gelöst haben
- Man zieht von allen richtigen Antworten die ab, die durch Raten entstanden sein könnten
- P = (NR-(NF/(m-1))/N x 100
Wie löst man das Problem der Zeitbegrenzung?
- Problem: bei Zeitbegrenzung werden nicht alle Probanden die Aufgabe beantworten
- Lösung: man nimmt als N nicht alle VPs, sondern die, die das Items überhaupt beantwortet haben
- P = NR/NB x 100
Wie löst man das Problem der Bewertungsskalen?
- Problem: bei Bewertungsskala (Ratingskala) lässt sich ursprüngliche Definition (richtig/falsch) nicht anwenden
- Lösung: man kodiert die Skalenstufen von 0 bis Y & errechnet das arithmetische Mittel der VPA-Antworten
- P = erreichte Punkte aller VPs / erreichbare Punkte aller VPs x 100
Wie wird Trennschärfe definiert?
- rit = Korrelation zw. Itemscore (Itemwert) & Testscore (Summenwert) der entsprechenden Skala
- Ausmaß der Übereinstimmung zw. Item & Skala bzgl. Differenzierung der Probanden (Löser vs. Nichtlöser)
- Je höher Trennschärfe, desto mehr trägt ein Item zur Differenzierung der VP durch den Test bei → je höher desto besser ist Item für Test
- Formale Berechnung abh. von Skalenniveaus des Items & Testscores
Wie wird die Trennschärfe bei intervallskalierten und dichotomen Items berechnet?
- bei intervallskalierten Items: Produkt-Moment-Korrelation
- bei dichotomen Items: Punkt-Biseriale-Korrelation
Warum wird eine Teil-Ganz-Korrektur verwendet? Was geschieht dadurch?
- Algebraische Abhängigkeit zw. Testscore & Itemscore → Überschätzung der Korrelation
- um Trennschärfe eines Items zu ermitteln, wird Itemscore jeweils von Berechnung des Testscores ausgeschlossen
- Trennschärfen werden verringert → keine Überschätzung
- Je mehr Items der Test hat, desto weniger fällt der Effekt einer TGK eines Items ins Gewicht
- je homogener, desto kleiner der TGK-Effekt
Wie wird Homogenität definiert?
- = Ausmaß der formalen & inhaltlichen Einheitlichkeit von Items
- = mittlere Korrelation eines Itemscores mit anderem Itemscore
Wie unterscheiden sich Item- & Skalenhomogenität?
- HItem = Homogenität eines Items = mittlere Korrelation eines Items mit den anderen Items einer Skala
- Hgesamt = Homogenität einer Skala = mittlere Korrelation aller Items einer Skala
Wie hängen Trennschärfe & Homogenität zusammen?
- Trennschärfe- & Homogenitätsindices abh. von Interkorrelation der Items
- Trennschärfe- & Homogenitätsindices positiv korreliert
- Trennschärfe & Homogenität essentiell dasselbe: rit = f(HItem)
Wie hängen Schwierigkeit & Streuung zusammen?
- Standardabweichung eines dichotomen Items x ist nur Funktion seiner Schwierigkeit: SD(x) = √pq
- Std(x) wird maximal für mittlere Itemschwierigkeit (P=50)
Wie hängen Schwierigkeit & Trennschärfe zusammen?
- Mittlere Werte (P=50) bedeuten maximale Streuung der Itemscores
- Ausreichende Streuung ist eine praktische (keine theoretische!) Voraussetzung für hohe Korrelationskoeffizienten
- mittlere Schwierigkeitsindices begünstigen hohe Trennschärfe- & Homogenitätsindices (garantieren sie aber nicht)
- umgekehrt U-förmiger Zusammenhang zw. Itemschwierigkeit & Trennschärfe
Welches Problem löst der Itemselektionswert?
- Ziel: möglichst breite Streuung der Schwierigkeitsindices einer Skala & möglichst große Trennschärfeindices aller Items
- Aber: das behindert sich gegenseitig
Wie funktioniert der Itemselektionswert?
- Items mit niedriger Trennschärfe rauswerfen & hoher Trennschärfe beibehalten
- Auswahl mit Selektionskennwert (sollte möglichst hoch sein)
- Sel = rit/(2xSD(x))
Welchen Einfluss haben die Itemkennwerte auf den Selektionswert?
- Trennschärfe: je höher TS rit, desto höher Selektionskennwert
- Streuung: je höher SD, desto kleiner Selektionskennwert
- Schwierigkeit: je extremer Schwierigkeit, desto weniger Streuung desto größer Selektionskennwert
Wie wird Objektivität definiert?
= Ausmaß, in dem die Ergebnisse eines Tests unabh. von der Person des Untersuchungsleiters sind
Welche Formen der Objektivität gibt es?
Durchführungs-, Auswertungs-, Interpretationsobjektivität
Welche Gegenmaßnahmen zur Gefährdung der Objekvitität gibt es?
- Maximale Standardisierung der Testsituation
- Maximale Standardisierung der Testauswertung
- Interpretation mittels statistischer Regeln
Wie wird Objektivität quantitativ bestimmt?
- Theorie: jeder Proband wird von versch. Testleitern mit demselben Verfahren untersucht, ausgewertet bzw. interpretiert → Objektivität = (mittlere) Korrelation der Testergebnisse zw. versch. Testleitern
- Praxis: mehrfach wiederholte Testdurchführung bei denselben Probanden kaum sinnvoll
- Üblicherweise selten quantitative Angaben
- Bewertung der Objektivität anhand von Plausibilitätserwägungen
Wie wird Reliabilität definiert?
- = Wert zw. 0-1, der als Maß für Messgenauigkeit eines Tests genutzt wird
- = Anteil der Varianz einer Testvariable Yi, der auf Varianz der True-Score-Variable τi zurückgeführt werden kann
Welche drei Variablen beinhaltet die Klassische Testtheorie?
- Truescore τ (= wahrer Wert)
- Messfehler ε (= Abweichung)
- Testwert Y = τ + ε
Wie lautet die Formel der Reliabilität nach der Klassischen Testtheorie?
Rel(Y) = Var(τ) / Var(Y)
Welche zwei Annahmen macht die Klassische Testtheorie?
- Messfehler zufällig positiver oder negativer Wert & unsystematisch; Erwartungswert = 0; es gibt niemals einen Zusammenhang des Messfehlers mit irgendwas
- Truescore bleibt zeitlich gleich; Einfluss auf Testwert immer gleich
Welche zwei Modelle gibt es zur Klassischen Testtheorie?
- Modell essentiell Tau-äquivalenter Variablen (Truescore bleibt immer gleich); Rel(Y) = Cov(Y1;Y2) / Var(Y)
- Modell Tau-kongenerischer Variablen (Truescore übt untersch. Einfluss auf Testwert aus)
Was bedeutet Retest-Reliabilität?
= nach gewissem Zeitraum wird jeder VP der Test ein zweites Mal präsentiert; anschließend korreliert man die zwei Tests miteinander → Rel.
Welche Probleme gibt es bei der Retest-Reliabilität?
- KTT nimmt an, der Truescore ist bei beiden Messungen der Gleiche; bei vielen Konstrukten (insbes. States) ist das nicht der Fall → Lösung: bes. kurze Zeitintervalle wählen
- Viele Tests könnten durch Erinnerungs- & Übungseffekte o.ä. beeinflusst werden → Lösung: lange Zeitintervalle wählen
Was bedeutet Paralleltest-Reliabilität?
= Parallelversion des Tests erstellt, die exakt gleichen Truescore misst; beide gibt man VPs; anschließend korreliert man beide Testergebnisse → Rel.
Welche Probleme gibt es bei der Paralleltest-Reliabilität?
- Funktioniert nur, wenn Tests tatsächlich parallel sind (gl. MW, SD)
- Sehr schwierig zu konstruieren; da Tests hintereinander präsentiert werden, müssen sie so verschieden sein, dass kein Übungseffekt auftritt → Ausnahmen Speedtests: gleichen Test einfach 2x machen
Was bedeutet Split-Half-Reliabilität?
= Test wird einfach halbiert & VP beide Hälften präsentiert; anschließend korreliert man Tests miteinander → Rel.
Welche Auswahlmöglichkeiten gibt es bei der Split-Half-Reliabilität?
- Split-half
- Odd-Even-Split (zunächst Nummerierung der Items: ungerade in eine Hälfte, gerade in andere)
- Random-Split (Zufallszuteilung der Items in Testhälften)
- Itemkennwert-Split (man sucht 2 Items mit ähnl. Trennschärfe & Schwierigkeit; das eine Item kommt in die eine Hälfte, das andere in die andere)
Welche Probleme gibt es bei der Split-Half-Reliabilität?
- Statt zwei Messungen mit z.B. 80 Items haben wir nun zwei Messungen mit 40 Items
- Wir berechnen als nicht Reliabilität des gesamten Tests, sondern nur der Hälften → Reliabilität wird unterschätzt → muss wieder hochgerechnet werden mit Spearman-Brown-Formel
Wie funktioniert die Spearman-Brown-Korrektur der Split-Half-Reliabilität?
- Testverlängerung
- Wie viele Items k bräuchte der Test, damit er eine Reliabilität von Rel(neu) erreicht?
- k = 2, wenn eigentlicher Test verlängert werden soll
- k = 0,5, wenn aktueller Test halbiert werden soll
- Ursprüngliche Itemzahl mit k multiplizieren, um Rel(neu) zu erreichen
Was bedeutet Interne Konsistenz?
- Wie sehr messen die Items den gleichen Truescore?
- einfaches Konsistenzmaß = Anteil der Summe aller Kovarianzen von allen Items an der Varianz des Testscores
- interne Konsistenz eines Items = Konsistenz der Items
Was besagt das Relabilitäts-Validitäts-Dilemma?
- Generell: Test muss genau messen, damit man Vorhersage treffen kann; muss reliabel sein, um valide zu sein
- Dennoch: je reliabler, desto enger misst man Konstrukt; je enger Konstrukt, desto geringer ist Vorhersagemöglichkeiten mit anderen Kriterien/Konstrukten → Test weniger valide
Wie definiert man Inhaltsvalidität?
= Wie repräsentativ sind die Items für das zu messende Merkmal?
= Ausmaß, mit dem mittels Repräsentationsschluss vom Test auf Zielmerkmal geschlossen werden kann
Wie wird Inhaltsvalidität quantitativ bestimmt?
- Items des Tests werden unabh. Experten vorgelegt, diese bewerten Übereinstimmung der Items mit Definition des Konstruktes (Ratingskalen)
- Übereinstimmung zw. Experten wird quantifiziert (Interklassenkorrelation)
- durchschnittl. Expertenurteil = Inhaltsvalidität
- Beurteilerübereinstimmung = Maß der Genauigkeit der Inhaltsvalidität
Wie wird Inhaltsvalidität experimentell bestimmt?
- Definition wird 2 unabh. Expertengruppen vorgelegt: diese konstruieren Items nach der rationalen Methode
- Beide Itemsammlungen (Tests) werden einer Stichprobe vorgelegt
- Übereinstimmung zw. Testergebnissen wird quantifiziert (Pearson-Korrelation)
- Testübereinstimmung = Inhaltsvalidität
Wie wird Kriteriumsvalidität definiert?
= Kann der Test Verhalten vorhersagen?
= Ausmaß, mit dem mittels Korrelationsschluss vom Test auf Zielmerkmal geschlossen werden kann