Testtheorie und Testkonstruktion - 1. Termin
PHB WS 18/19
PHB WS 18/19
Kartei Details
Karten | 57 |
---|---|
Lernende | 14 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 12.02.2019 / 05.04.2021 |
Weblink |
https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190212_testtheorie_und_testkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Nennen Sie die Haupt- und Nebengütekriterien zur Beurteilung der Testqualität.
Hauptgütekriterien: Objektivität, Reliabilität, Validität
Nebengütekriterien:
1. Skalierung
2. Normierung
3. Testökonomie
4. Nützlichkeit
5. Zumutbarkeit
6. Unverfälschbarkeit
7. Fairness
Wie ist die Reliabilität definiert und welche Verfahren zur Bestimmung der Reliabilität kennen Sie?
Reliabilität bedeutet Messgenauigkeit und ist definiert als Anteil der wahren Varianz an der beobachteten Varianz. (Wertebereich [0;1] )
- Retest-Reliabilität
- Paralleltest-Reliabilität
- Testhalbierungs-Reliabilität
- Innere oder Interne Konsistenz
Nennen Sie die verschiedenen Facetten der Validität. Erläutern Sie eine Facette genauer.
Augenscheinvalidität
→ Gegeben, wenn der Validitätsanspruch eines Tests einem Laien gerechtfertigt erscheint.
Vor allem relevant bezüglich der Mitteilbarkeit der Ergebnisse und der Akzeptanz von Seiten der Testpersonen.
Aus wissenschaftlicher Sicht nicht ausreichend.
- Inhaltsvalidität
- Kriteriumsvalidität
- Konstruktvalidität
Wie wird die Qualität von psychologischen Tests im deutschsprachigen Raum sichergestellt?
Im deutschsprachigen Raum werden Tests im Auftrag des Diagnostik-und Testkuratoriums (DTK; Gremium des BDP und der DGPs) systematisch von jeweils zwei unabhängigen Gutachtern beurteilt.
Welche internationalen Standards zur Entwicklungen von psychologischen Tests kennen Sie?
AERA (American Educational Research Association)
APA (American Psychological Association)
NCME (National Council on Measurement in Education)
Womit beschäftigt sich die psychologische Diagnostik?
Definition nach Eid und Petermann (2006)
regelgeleitetes Sammeln und Verarbeiten von gezielt erhobenen Informationen
dient der Bearbeitung von Fragestellungen (eines Auftragsstellers) und der Entscheidungsfindung (Ziel: bestmögliche Entscheidung)
Prinzipien der Entscheidungsfindung müssen wissenschaftliche Kriterien erfüllen
Schritte müssen nachvollziehbar sein und die Schlußfolgerungen ethischen Standards genügen.
Was ist ein psychometrisches Modell?
In psychometrischen Modellen wird das beobachtbare Verhalten als Funktion eines latenten Personenmerkmals und eines Itemmerkmals dargestellt.
Ziel ist es, mittels solcher Modelle aufgrund von registrierten Verhaltensweisen die Merkmalsausprägungen einer Person auf einer latenten Variablen zu schätzen.
Die Funktion beschreibt einen nicht-deterministischen Zusammenhang → probabilistischer Zusammenhang (auf Wahrscheinlichkeiten basierend)
In psychometrischen Modellen werden Konstrukte als latente Variablen definiert.
Können zur Testkonstruktion herangezogen werden.
Was ist eine latente Variable (latentes Konstrukt)?
Ein Personenmerkmal, dessen Ausprägungen nicht direkt beobachtbar sind, sondern über beobachtbares Verhalten erschlossen wird.
Was ist eine manifeste Variable?
Im Gegensatz zu latenten Variablen sind die Ausprägungen einer latenten Variablen direkt beobachtbare Reaktionen (z.B. Lösen vs. Nichtlösen einer Aufgabe)
Was ist ein psychologischer Test?
Ein psychologischer Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen und einer Vorschrift
MERKE:
→ Reize, die merkmalsrelevantes Verhalten provozieren
→ Reaktionsformen, anhand derer das Verhalten registriert werden kann
→ Psychometrisches Modell (d.h. Verbindung zwischen den beobachteten Reaktionen und dem latenten Merkmal)
Nennen Sie die Schritte der Testkonstruktion.
Schritt 1 der Testkonstruktion: Festlegung des zu erfassenden Konstrukts.
Um welche Art von Merkmal handelt es sich?
→ kontinuierliches (quantitatives) versus kategoriales (qualitatives) Merkmal
→ eindimensionales versus mehrdimensionales Merkmal
Was sind mögliche Gefahren für die Itemkonstruktion?
Unterrepräsentation des Konstrukts
→ Wichtige Facetten des Konstrukts fehlen
Kontrolle von konstruktirrelevanten Faktoren
→ Einflüsse, die nichts mit dem zu erfassenden Konstrukts zu tun haben, beeinflussen das Testverhalten
Welche Strategien für die Item- bzw. Testkonstruktion gibt es?
1. rationale Testkonstruktion
2. induktive sowie kriteriumsorientierte Testkonstruktion
3. externale Testkonstruktion
→ zählt zu Schritt 2 der Testkonstruktion: Erstellung eines Itempools
Was ist die rationale Strategie?
- auch deduktive Methode genannt
- Items werden eng an der Definition eines Konstrukts konstruiert
Vorgehen nach Wilson (2005):
Erstellen einer Konstruktkarte (z.B. für Emotionen: todunglücklich - traurig - betrübt - unwohl - wohl - froh - glücklich - euphorisch)
Konstruktion von Items (z.B. trifft nicht zu - trifft zu)
Kodierung von Antworten (z.B. 1 und 2)
Auswahl eines Messmodells (z.B. Rasch-Modell)
Was versteht man unter der induktiven und kriteriumsorientierten Strategie?
- Items sollen repräsentativ für das Konstrukt sein (d.h. inhaltsvalide)
→ Test enthällt alle Items einer definierten Grundgesamtheit oder einer repräsentativen Stichprobe (Itempopulation und -stichprobe)
Was ist das Ziel der externalen Strategie?
→ Zusammenhang mit einem externen Kriterium (kriteriumsbezogene Validität) steht im Fokus
⇒ Itemauswahl anhand der empirischen Vorhersageleistung für ein spezifisches Kriterium
Die Messung des Kriteriums kann .. mit dem Test erfolgen.
◃ zeitgleich (Konkurrente Validität),
◃ später (Prognostische Validität), oder
◃ früher (Retrograde Validität)
Warum beruhen allgemeine Verschwörungstheorien auf der induktiven sowie kriteriumsorientierten Testkonstruktion?
Die Items wurden basierend auf der Literatur zu allgemeinen Verschwörungstheorien entwickelt. Die Items sollen eine repräsentative Stichprobe darstellen und das Merkmal umfassend erfassen.
Was sind die drei zentralen Fragen bei der Itemgenerierung?
- Woran, wie und zu welchen Gelegenheiten manifestiert sich das interessierende Verhalten?
- Sind die erhobenen Verhaltensweisen repräsentativ für das Konstrukt, um es adäquat abzubilden?
- Differenzieren die gewählten Verhaltensweisen zwischen Personen mit unterschiedlichen Ausprägungen des Konstrukts?
Nennen Sie fünf Empfehlungen zur Formulierung von Items.
Formuliere einfach und kurz.
Formuliere so konkret und verhaltensbezogen wie möglich.
Formuliere neutral und versuche, die Antwort so wenig wie möglich zu beeinflussen.
Beziehe dich auf einen Sachverhalt.
Vermeide Negationen, v.a. aber doppelte Verneinungen.
Welche Antwortformats kennen Sie?
1. geschlossenes (gebundenes) Antwortformat
→ Antwortkategorien liegen apriori fest
→ Beispiel: trifft nicht zu - trifft kaum zu - trifft eher zu - trifft zu
2. offenes (freies) Antwortformat
→ Es werden gar keine Antwortalternativen vorgegeben
→ Beispiel: Welche Strategien der Testkonstruktionen kennen Sie?
3. halboffenes Antwortformat
→ Es gibt eine begrenzte Anzahl von Kategorien, die die Person jedoch selbst festlegt
→ Beispiel: Zeiteinteilung für Tätigkeiten am Tag
4. atypisches Antwortformat
→ zeichnen sich durch eine gewisse “Eigenständigkeit” aus
→ Beispiel: Drücken von Tasten am Computer
Welches Antwortformat trifft auf folgendes Beispiel: "Zeiteinteilung für Tätigkeiten am Tag" zu?
Schritt 4 der Testkonstruktion: Itemanalyse und Itemauswahl
Expertenurteile
Prozessanalyse
Empirische (testtheoretische) Untersuchungen:
→ deskriptiv-statistische Itemanalyse
→ Explorative Faktorenanalysen (EFA)
→ Konfirmatorische Faktorenanalysen (CFA)
Welche Methoden zur Datengewinnung kennen Sie? (Nennen Sie fünf)
- Fragebögen
- Leistungstests
- Verhaltensbobachtungen
- Gespräche (Interviews)
- physiologische Messungen
Was versteht man unter der Testtheorie?
→ Teilgebiet der Psychometrie
- Entwicklung und Formalisierung psychometrischer Modelle
- Konstruktion und Evaluation von psychologischen Tests
Anhand welches Kriteriums wird der Itempool erstellt?
Validität
Nennen Sie ein Beispiel für die induktive und kriteriumsorientierte Strategie.
Beispiel: Konstruktion von Klausuraufgaben
1. Spezifikation von Lehrzielen und Kompetenzstufen
2. Konstruktion von Aufgaben/Fragen zur Abfrage der Lehrziele
3. (Zufalls-)Ausfall aus den Aufgaben/Fragen
4. Notenschlüssel
Das Gütekriterium der Validität ist gegeben, wenn...
Was sind geschlossene Antwortformate?
Welche empririschen (testtheoretischen) Untersuchungen der Itemanalyse- und auswahl kennen Sie?
- deskriptiv-statistische Itemanalyse
- Explorative Faktorenanalyse (EFA)
- Kofirmatorische Faktorenanalyse (CFA)
Warum sollte die Testanalyse, wenn möglich, getrennt von Itemanalyse und Itemauswahl erfolgen?
- im Idealfall erfoglt Testanalyse an einer neuen und repräsentativen Stichprobe
- um Gefahr der Überanpassung und somit verringerter Prognosegüte zu vermeiden (siehe Multivariate Statistik)
Welche Formen der Transformation von Merkmalsausprägungen gibt es und wie unterscheiden sich diese?
Nennen Sie jeweils ein Beispiel.
Normorientierte Transformation der Merkmalsausprägungen:
...als Bewertungssystem dient Verteilung der Testwerte in der Bezugspopulation
→ z-Transformation: Mittelwert = 0, Standardabweichung = 1
Kriteriumsorientierte Transformation der Merkmalsausprägungen:
...als Bewertungssystem dient Erreichung eines Kriteriums
→ Klausur: 17 von 33 Fragen korrekt beantworten, dann Klausur bestanden
Welche verschiedenen Testnormen kennen Sie?
z-Werte: Mittelwert = 0, Standardabweichung = 1
IQ-Werte: Mittelwert = 100, Standardabweichung = 15
T-Werte: Mittelwert = 50, Standardabweichung = 10
Prozentränge: Wie viel Prozent der Referenzpopulation haben einen niedrigeren bzw. gleich hohen Testwert als der der Testperson?
Was sind die wichtigsten Gemeinsamkeiten und Unterschiede zwischen psychologischen und physikalischen Messungen?
→ Bei psychologischen und physikalischen Messungen geht es darum, ein Merkmal mit hoher Objektivität, Reliabilität und Validität zu messen.
Im Gegensatz zur physikalischen Messung gibt es bei der Erfassung psychologischer Merkmale häufig keinen allgemein akzeptierten Vergleichsstandard, den man zur Eichung von Messinstrumenten heranziehen könnte. Dies liegt unter anderem daran, dass häufig eine allgemein akzeptierte Definition eines Merkmals fehlt.
Darüber hinaus kann man in der Psychologie das interessierende Merkmal anhand eines einzelnen Messvorgangs häufig nur viel gröber messen als dies bei physikalischen Messungen der Fall ist, und es fehlen generell akzeptierte Maßeinheiten.
Worin bestehen die Grundideen des Rasch-Modells?
Das Rasch-Modell geht von beobachtbaren dichotomen Antwortvariablen wie z. B. der Lösung vs. Nichtlösung einer Aufgabe aus.
Dem Rasch-Modell zufolge hängen die Lösungswahrscheinlichkeiten aller betrachteten Aufgaben (Items) von einer nicht direkt beobachtbaren (latenten) kontinuierlichen Merkmalsvariablen ab.
- Lösungswahrscheinlichkeit nimmt mit Zunahme der Werte auf der latenten Variablen zu.
- Abhängigkeit der Lösungswahrscheinlichkeit von der latenten Variablen wird durch eine Itemcharakteristik beschrieben
- Im Rasch-Modell verlaufen alle Itemcharakteristiken parallel
⇒ Lösungswahrscheinlichkeiten aller Items hängen im Rasch-Modell sowohl von der Itemschwierigkeit als auch dem Personenmerkmal ab
Welche drei Aspekte der Objektivität sind bekannt?
- Durchführungsobjektivität
- Auswertungsobjektivität
- Interpretationsobjektivität