Diagnostik Vorlesung

Fragen zur VorlesungWürzburg 2024/25

Fragen zur VorlesungWürzburg 2024/25


Kartei Details

Karten 87
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 10.02.2025 / 14.02.2025
Weblink
https://card2brain.ch/box/20250210_diagnostik_vorlesung
Einbinden
<iframe src="https://card2brain.ch/box/20250210_diagnostik_vorlesung/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist der Schwierigkeitsindex P? (Definition + Formel)

P =  relative Anzahl von Probanden, die im Sinne der Merkmalsausprägung antworten  (hohe Werte bei leichten Aufgaben, „Leichtigkeitsindex“)

P = (NR/N) x 100

Welche Schwierigkeit wird angestrebt? Was sind Probleme extremer Schwierigkeit?

  • Extreme Schwierigkeit: keine Differenzierung zw. VP bei maximaler (P=100) oder minimaler (P=0) Schwierigkeit, Differenzierung in Randbereichen
  • Mittlere Schwierigkeit (P=50): maximale Differenzierung zw. VP mit mittlerer Merkmalsausprägung (große Streuung) → aber: keine Abgrenzung der Extrembereiche
  • Deshalb: breite Streuung der Schwierigkeit von Items in einer Skala wird angestrebt (5<P<95) 

Welche Probleme gibt es bei der Schwierigkeit und wie können diese behoben werden?

  1. Schwierigkeitskoeffizient kann nur interpretiert werden, wenn Einfluss von Zufall ausgeschlossen werden kann → Korrektur von Zufallseinflüssen
  2. Schwierigkeitskoeffizient kann nur interpretiert werden, wenn alle Items beantwortet wurden (nicht bei Zeitbegrenzung) → Korrektur für Zeitbegrenzung
  3. Schwierigkeitsindex kann nur für dichotome Items berechnet werden → Berechnung von abgestuften Bewertungsskalen
  4. Auf Item-Schwierigkeit kann nur geschlossen werden, wenn Leistungsniveau der Probanden bekannt → Rasch-Skalierung

Wie geht man bei der Zufallskorrektur vor?

  • Für eine Stichprobe wird Anzahl an Personen, die Aufgabe richtig gelöst haben, NR ersetzt durch Anzahl der Personen, die erwartungsgemäß diese Aufgabe durch Fähigkeit gelöst haben
  • Man zieht von allen richtigen Antworten die ab, die durch Raten entstanden sein könnten  
  • P = (NR-(NF/(m-1))/N x 100

Wie löst man das Problem der Zeitbegrenzung?

  • Problem: bei Zeitbegrenzung werden nicht alle Probanden die Aufgabe beantworten
  • Lösung: man nimmt als N nicht alle VPs, sondern die, die das Items überhaupt beantwortet haben
  • P = NR/NB x 100

Wie löst man das Problem der Bewertungsskalen?

  • Problem: bei Bewertungsskala (Ratingskala) lässt sich ursprüngliche Definition (richtig/falsch) nicht anwenden
  • Lösung: man kodiert die Skalenstufen von 0 bis Y & errechnet das arithmetische Mittel der VPA-Antworten 
  • P = erreichte Punkte aller VPs / erreichbare Punkte aller VPs x 100

Wie wird Trennschärfe definiert?

  •  rit = Korrelation zw. Itemscore (Itemwert) & Testscore (Summenwert) der entsprechenden Skala 
  • Ausmaß der Übereinstimmung zw. Item & Skala bzgl. Differenzierung der Probanden (Löser vs. Nichtlöser) 
  • Je höher Trennschärfe, desto mehr trägt ein Item zur Differenzierung der VP durch den Test bei → je höher desto besser ist Item für Test 
  • Formale Berechnung abh. von Skalenniveaus des Items & Testscores 

Wie wird die Trennschärfe bei intervallskalierten und dichotomen Items berechnet?

  • bei intervallskalierten Items: Produkt-Moment-Korrelation
  •  bei dichotomen Items: Punkt-Biseriale-Korrelation

Warum wird eine Teil-Ganz-Korrektur verwendet? Was geschieht dadurch?

  • Algebraische Abhängigkeit zw. Testscore & Itemscore → Überschätzung der Korrelation
  • um Trennschärfe eines Items zu ermitteln, wird Itemscore jeweils von Berechnung des Testscores ausgeschlossen
  • Trennschärfen werden verringert → keine Überschätzung
  • Je mehr Items der Test hat, desto weniger fällt der Effekt einer TGK eines Items ins Gewicht
  • je homogener, desto kleiner der TGK-Effekt

Wie wird Homogenität definiert?

  • = Ausmaß der formalen & inhaltlichen Einheitlichkeit von Items
  • = mittlere Korrelation eines Itemscores mit anderem Itemscore 

 

Wie unterscheiden sich Item- & Skalenhomogenität?

  • HItem = Homogenität eines Items = mittlere Korrelation eines Items mit den anderen Items einer Skala
  • Hgesamt = Homogenität einer Skala = mittlere Korrelation aller Items einer Skala

Wie hängen Trennschärfe & Homogenität zusammen?

  • Trennschärfe- & Homogenitätsindices abh. von Interkorrelation der Items
  • Trennschärfe- & Homogenitätsindices positiv korreliert
  • Trennschärfe & Homogenität essentiell dasselbe: rit = f(HItem) 

Wie hängen Schwierigkeit & Streuung zusammen?

  • Standardabweichung eines dichotomen Items x ist nur Funktion seiner Schwierigkeit: SD(x) = √pq
  • Std(x) wird maximal für mittlere Itemschwierigkeit (P=50)  

Wie hängen Schwierigkeit & Trennschärfe zusammen?

  • Mittlere Werte (P=50) bedeuten maximale Streuung der Itemscores
  • Ausreichende Streuung ist eine praktische (keine theoretische!) Voraussetzung für hohe Korrelationskoeffizienten
  • mittlere Schwierigkeitsindices begünstigen hohe Trennschärfe- & Homogenitätsindices (garantieren sie aber nicht)
  • umgekehrt U-förmiger Zusammenhang zw. Itemschwierigkeit & Trennschärfe

Welches Problem löst der Itemselektionswert?

  • Ziel: möglichst breite Streuung der Schwierigkeitsindices einer Skala & möglichst große Trennschärfeindices aller Items
  • Aber: das behindert sich gegenseitig

Wie funktioniert der Itemselektionswert?

  1. Items mit niedriger Trennschärfe rauswerfen & hoher Trennschärfe beibehalten 
  2. Auswahl mit Selektionskennwert (sollte möglichst hoch sein)
  3. Sel = rit/(2xSD(x))

Welchen Einfluss haben die Itemkennwerte auf den Selektionswert?

  • Trennschärfe: je höher TS rit, desto höher Selektionskennwert
  • Streuung: je höher SD, desto kleiner Selektionskennwert
  • Schwierigkeit: je extremer Schwierigkeit, desto weniger Streuung desto größer Selektionskennwert

Wie wird Objektivität definiert?

= Ausmaß, in dem die Ergebnisse eines Tests unabh. von der Person des Untersuchungsleiters sind

Welche Formen der Objektivität gibt es?

Durchführungs-, Auswertungs-, Interpretationsobjektivität 

Welche Gegenmaßnahmen zur Gefährdung der Objekvitität gibt es?

  • Maximale Standardisierung der Testsituation
  • Maximale Standardisierung der Testauswertung
  • Interpretation mittels statistischer Regeln  

Wie wird Objektivität quantitativ bestimmt?

  • Theorie: jeder Proband wird von versch. Testleitern mit demselben Verfahren untersucht, ausgewertet bzw. interpretiert → Objektivität = (mittlere) Korrelation der Testergebnisse zw. versch. Testleitern
  • Praxis: mehrfach wiederholte Testdurchführung bei denselben Probanden kaum sinnvoll
  • Üblicherweise selten quantitative Angaben
  • Bewertung der Objektivität anhand von Plausibilitätserwägungen

Wie wird Reliabilität definiert?

  • = Wert zw. 0-1, der als Maß für Messgenauigkeit eines Tests genutzt wird
  • = Anteil der Varianz einer Testvariable Yi, der auf Varianz der True-Score-Variable τi zurückgeführt werden kann

Welche drei Variablen beinhaltet die Klassische Testtheorie?

  1. Truescore τ (= wahrer Wert)
  2. Messfehler ε (= Abweichung)
  3. Testwert Y = τ + ε 

Wie lautet die Formel der Reliabilität nach der Klassischen Testtheorie?

Rel(Y) = Var(τ) / Var(Y)

Welche zwei Annahmen macht die Klassische Testtheorie?

  1. Messfehler zufällig positiver oder negativer Wert & unsystematisch; Erwartungswert = 0; es gibt niemals einen Zusammenhang des Messfehlers mit irgendwas
  2. Truescore bleibt zeitlich gleich; Einfluss auf Testwert immer gleich

Welche zwei Modelle gibt es zur Klassischen Testtheorie?

  1. Modell essentiell Tau-äquivalenter Variablen (Truescore bleibt immer gleich); Rel(Y) = Cov(Y1;Y2) / Var(Y)
  2. Modell Tau-kongenerischer Variablen (Truescore übt untersch. Einfluss auf Testwert aus)

Was bedeutet Retest-Reliabilität?

= nach gewissem Zeitraum wird jeder VP der Test ein zweites Mal präsentiert; anschließend korreliert man die zwei Tests miteinander → Rel. 

 

Welche Probleme gibt es bei der Retest-Reliabilität?

  • KTT nimmt an, der Truescore ist bei beiden Messungen der Gleiche; bei vielen Konstrukten (insbes. States) ist das nicht der Fall → Lösung: bes. kurze Zeitintervalle wählen
  • Viele Tests könnten durch Erinnerungs- & Übungseffekte o.ä. beeinflusst werden → Lösung: lange Zeitintervalle wählen

Was bedeutet Paralleltest-Reliabilität?

= Parallelversion des Tests erstellt, die exakt gleichen Truescore misst; beide gibt man VPs; anschließend korreliert man beide Testergebnisse → Rel.

Welche Probleme gibt es bei der Paralleltest-Reliabilität?

  • Funktioniert nur, wenn Tests tatsächlich parallel sind (gl. MW, SD)
  • Sehr schwierig zu konstruieren; da Tests hintereinander präsentiert werden, müssen sie so verschieden sein, dass kein Übungseffekt auftritt → Ausnahmen Speedtests: gleichen Test einfach 2x machen 

Was bedeutet Split-Half-Reliabilität?

= Test wird einfach halbiert & VP beide Hälften präsentiert; anschließend korreliert man Tests miteinander → Rel. 

Welche Auswahlmöglichkeiten gibt es bei der Split-Half-Reliabilität?

  • Split-half
  • Odd-Even-Split (zunächst Nummerierung der Items: ungerade in eine Hälfte, gerade in andere)
  • Random-Split (Zufallszuteilung der Items in Testhälften)
  • Itemkennwert-Split (man sucht 2 Items mit ähnl. Trennschärfe & Schwierigkeit; das eine Item kommt in die eine Hälfte, das andere in die andere)

Welche Probleme gibt es bei der Split-Half-Reliabilität?

  • Statt zwei Messungen mit z.B. 80 Items haben wir nun zwei Messungen mit 40 Items
  • Wir berechnen als nicht Reliabilität des gesamten Tests, sondern nur der Hälften → Reliabilität wird unterschätzt → muss wieder hochgerechnet werden mit Spearman-Brown-Formel 

Wie funktioniert die Spearman-Brown-Korrektur der Split-Half-Reliabilität?

  • Testverlängerung
  • Wie viele Items k bräuchte der Test, damit er eine Reliabilität von Rel(neu) erreicht? 
    • k = 2, wenn eigentlicher Test verlängert werden soll 
    • k = 0,5, wenn aktueller Test halbiert werden soll 
  • Ursprüngliche Itemzahl mit k multiplizieren, um Rel(neu) zu erreichen

Was bedeutet Interne Konsistenz?

  • Wie sehr messen die Items den gleichen Truescore? 
  • einfaches Konsistenzmaß = Anteil der Summe aller Kovarianzen von allen Items an der Varianz des Testscores 
  • interne Konsistenz eines Items = Konsistenz der Items

Was besagt das Relabilitäts-Validitäts-Dilemma?

  • Generell: Test muss genau messen, damit man Vorhersage treffen kann; muss reliabel sein, um valide zu sein
  • Dennoch: je reliabler, desto enger misst man Konstrukt; je enger Konstrukt, desto geringer ist Vorhersagemöglichkeiten mit anderen Kriterien/Konstrukten → Test weniger valide 

Wie definiert man Inhaltsvalidität?

= Wie repräsentativ sind die Items für das zu messende Merkmal?

= Ausmaß, mit dem mittels Repräsentationsschluss vom Test auf Zielmerkmal geschlossen werden kann

Wie wird Inhaltsvalidität quantitativ bestimmt?

  • Items des Tests werden unabh. Experten vorgelegt, diese bewerten Übereinstimmung der Items mit Definition des Konstruktes (Ratingskalen) 
  • Übereinstimmung zw. Experten wird quantifiziert (Interklassenkorrelation)
  • durchschnittl. Expertenurteil = Inhaltsvalidität
  • Beurteilerübereinstimmung = Maß der Genauigkeit der Inhaltsvalidität

Wie wird Inhaltsvalidität experimentell bestimmt?

  • Definition wird 2 unabh. Expertengruppen vorgelegt: diese konstruieren Items nach der rationalen Methode
  • Beide Itemsammlungen (Tests) werden einer Stichprobe vorgelegt
  • Übereinstimmung zw. Testergebnissen wird quantifiziert (Pearson-Korrelation)
  • Testübereinstimmung = Inhaltsvalidität 

Wie wird Kriteriumsvalidität definiert?

= Kann der Test Verhalten vorhersagen?

= Ausmaß, mit dem mittels Korrelationsschluss vom Test auf Zielmerkmal geschlossen werden kann