Testtheorie

Testtheorie und Fragebogenkonstruktion

Testtheorie und Fragebogenkonstruktion

Lucila Falballa

Lucila Falballa

Kartei Details

Karten 143
Lernende 20
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 13.11.2012 / 25.02.2024
Weblink
https://card2brain.ch/box/testtheorie
Einbinden
<iframe src="https://card2brain.ch/box/testtheorie/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Definition von Psychologischer Test

Ein Test ist ein wissenschaftliches Routineverfahren zu Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung.

Skalen

,

Was sind die drei zentralen Gütekriterien?

+ Objektivität (Standardiesierung)

+ Reliabilität

+ Validität

Was bedeutet Objektivität?

+ Unabhängigkeit der Testergebnisse von Testleiter, Testauswerter und Ergebnisinterpretation

Welche Arten der Objektiviät gibt es?

+ Durchführungsobjektivität (betrifft Provokation und Registrierung)

+ Auswerungsobjektivität

+ Interprtationsobjektivität

Was bedeutet Reliabilität?

+ die Reliabilität (Messgenauigkeit eines Tests beschreibt, wie exakt der Test das Merkmal misst, das er misst.

Was bedeutet Reliabilität?

+ die Reliabilität (Messgenauigkeit eines Tests beschreibt, wie exakt der Test das Merkmal misst, das er misst.

Wie beschreibt man die Reliabilität?

+ über den Reliabilitätskoeffizienten

Was sagt der Reliabilitätskoeffizient aus? Welche Werte sind wünschenswert / nicht wünschenswert?

+ er ist definiert als Anteil der wahren Varianz an der gesamten Varianz der Testwerte

+ angestrebt werden große Werte nahe 1; Werte ab 0.7 werden üblicherweise als akzeptabel, ab 0.8 als gut betrachtet

Welche Verfahren stehen zur Schätzung der Reliabilität zur Verfügung?

Wie ist Validität definiert?

+ die Validität (Gültigkeit) eines Tests beschreibt, wie gut das tatsächlich gemessene Merkmal mit dem zu messenden Merkmal übereinstimmt

+ sie ist das zentrale Gütekriterium!!!

Welche Arten der Validität gibt es?

+Inhaltsvalidität

- wie weit entsprechen die Items, dem, was gemessen werden soll (Repräsentattivitätsschluss)

+ Konkurrente Validität

+ Prädiktive Validität

+ Konstruktvalidität

Welche weiteren Gütekriterien sind noch zu nennen?

+ Skalierung

+ Normierung (Eichung)

+ Testökonomie (Aufwand vs. Nutzen

+ Nützlichkeit

+ Zumutbarkeit

+ Unverfälschbarkeit

(der Getestete soll nicht in der Lage sein, Ergebnis zu verändern)

+ Fairness (Nicht- Benachteiligung ethnischer Gruppen)

Was sind die Ziele psychologischer Tests?

+ Quantifizieren oder Klassifizieren der Merkmalsausprägung eines Individuums

+ Feststellung von Unterschieden zwischen Individuuen oder Gruppen

+ Ermittlung, ob ein bestimmtes KRiterium erfüllt ist (Selektion)

+ Erstellen von Profilen unterschiedlicher Merkmalsausprägungen (Berufsinteressenprofil)

+ Erfassung von Merkmalsveränderungen

(etwa durch natürliche Entwicklungen, Umweltfaktoren, gezielte Interventionen etc.)

Wie kann man psychologische Tests klassifizieren?

+ nach dem Testmedium ( mündlich, Paper - Pencil, Bildtests, PC- gestützte

Tests

+ verbal vs. nonverbal

+ kulturfair vs. kulturgebunden

+ Individual vs. Gruppentests

+ ein vs. mehrdimensional

+ maximales vs. typisches Verhalten (Leistungs-/ Persönlichkeitstests)

+ Speed vs. Power - Tests

+ offene vs. gebundene Items

+ normativ vs. ipsativ (Rating Items vs. Forced - Choice -Items)

+ normorientiert vs. kriterienorientiert

(Merkmal hinsichtlich einer Bezugsgruppe vs. Testwert hinsichtlich inhaltl.

Kriterium)

+ klassisch vs. probabilistisch

Kannst du Beispiele nennen für Tests (Leistungs- und Persönlichkeitstests)?

Leistungstests; Efassung maximalen Verhaltens:

+ Intelligenztests (IST 2000R, BIS-4)

+ Konzentrationstests ( d2; Speed - Test)

+ Wissenstests (START - C; Power - Test)

+ Komplexe Szenarios (FSYS; Powertest, PC - gestützt)

Persönlichkeitstests, Erfassung typischen Verhaltens

+ Persönlichkeitsinventare (NEOFFI, 16 PF)

+ Spezielle Fragebögen (LOCI/DE, SSS-V)

+ Interessenstests (BIT2, wahlweise ipsativ oder normativ)

Was bedeutet Skalierung?

+ ein Test erfüllt das Kriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden

(eine leistungsfähigere Person soll auch besser in einem Leistungstest abschneiden, als eine weniger leistungsfähigere Person!)

Was bedeutet Normierung (Eichung)

+ unter Nromierung versteht das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können

Was bedeutet Testökonomie?

+ der Test erfüllt das Gütekriterium Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig finanzielle und zeitliche Ressourcen beansprucht

Was bedeutet Nützlichkeit?

+ ein Test ist dann nützlich, wenn für das von ihm gemessene MErkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen

Was heißt Zumutbarkeit?

+ ein Test erfüllt das Gütekriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende PErson in zeitlicher, psychische sowie körperlich Hinsicht nicht über Gebühr belastet

Was bedeutet Unverfälschbarkeit?

+ wenn das Testverfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern kann

Welche Konstruktionsstrategien gibt es?

Bei der Konstruktion der Testitems kann (im 1. Schritt) zwischen

+ intuitiver und rationaler

sowie (im 2. Schritt) zwischen

+ externaler (kriteriumsorientierter) und internaler (faktorenanalytischer)

Konstruktionsstrategie unterschieden werden.

Intuitive Konstruktion

• Intuition und Erfahrung des Testkonstrukteurs leiten die Itemgenerierung

• sinnvoll, wenn der theoretische Kenntnisstand bzgl. des Merkmals gering ist

Rationale Konstruktion

• deduktive Herleitung der Items aus elaborierten Theorien über Merkmalsunterschiede zwischen Personen

• zunächst Definition und Spezifikation des zu messenden Konstrukts

• z.B. Umwandlung konstruktdefinierender Verhaltensweisen in Statements

Externale (kriteriumsorientierte) Konstruktion

• empirische Auswahl von Items, die zwischen Gruppen mit unterschiedlicher Merkmalsausprägung möglichst gut differenzieren können

• Verwendung unterschiedlicher Testandenstichproben zur Vermeidung systematischer Fehler

Internale (faktorenanalytische) Konstruktion

• empirische Auswahl der Items anhand von Faktorenanalysen

• Items, die auf einem Faktor laden, also statistisch eindimensional sind, werden zu Skalen zusammengefasst

Aufgabenstamm

Der Aufgabenstamm enthält die Frage oder die Problemstellung, für die der

Testand die Lösung angeben soll.

Aufgabentypen

grafik hierher kopieren!

Sag mir alles über Distraktoren!

Bei der Konstruktion von Auswahlaufgaben für Leistungstests ist auf geeignete

Distraktoren zuachten. Diese sollten attraktiv und disjunkt sein.

Bei Persönlichkeitstests sollten die Antwortalternativen exhaustiv und disjunkt sein

Die Beurteilungsaufgaben sind weiter zu untergliedern in:

• unipolare vs. bipolare Skalen

• numerische, verbale oder optische/symbolische Skalen

• asymmetrische Beurteilungsskalen

Es sind auch Kombinationen gebräuchlich.

Welche Fehlerquellen bei der Itembeantwortung gibt es?

(Systematische natürlich !)

Soziale Erwünschtheit

• Fremdtäuschung (Impression Management)

• Selbsttäuschung (Self-deceptive Enhancement)

Antworttendenzen

• Tendenz zur Mitte

• Tendenz zum extremen Urteil

• Akquieszenz (Zustimmungstendenz)

• Konsistenz

Kategorisierung der Items?

+ Kategorisierung von Itemarten nach Angleitner, John und Löhr (1986)

+ Kategorisierung nach Jankisz und Moosbrugger (2007)

Kategorisierung von Itemarten nach Angleitner, John und Löhr (1986)?

• Fragen zur Selbstbeschreibung („ich lache oft“)

• Fragen zur Fremdbeschreibung („meine Freunde halten mich für eine

tüchtige Person“)

• Fragen zu biografischen Fakten („in meiner Jugend habeich gerne

Modellflugzeuge gebaut“)

• Trait- / Eigenschaftszuschreibungen („ich halte mich für spontan“)

• Motivationale Fragen („Ich habe eine besondere Vorliebe für schwierige

Aufgaben“)

• Fragen zu Wünschen und Interessen („ich gehe gerne ins Theater“)

• Fragen zu Einstellungen und Meinungen („Es gibt im Leben wichtigeres als

beruflichen Erfolg“)

Kategorisierung nach Jankisz und Moosbrugger (2007)

• direkte vs. indirekte Items

• hypothetische vs. biografische Itemformulierung

• konkrete ("Wie verhalten Sie sich, wenn..") vs. abstrakte Items

• personalisierte ("Benutzen Sie Kondome?") vs. depersonalisierte Items

• emotionale Neutralität ("Sind Sie ängstlich?" vs. Intensität des Stimulus (Herzklopfen?)

Sprachliche Verständlichkeit - was muss man beachten?

• positive Formulierung, Verneinungen meiden, auf keinen Fall doppelte

Verneinungen

• einfache Satzkonstruktionen ohne Verschachtelungen

• keine umständlichen Fragen

• keine Abkürzungen

• Begriffe an Zielpopulation anpassen, keine Fachbegriffe

• Angaben zur Intensität oder Häufigkeit im Itemstamm vermeiden

Eindeutigkeit der Formulierung - was muss man beachten?

• Universalausrücke (zB „immer“, „alle“, „nie“) meiden

• notwendige Definitionen vor der Frage geben

• Iteminhalt darf nur auf eine Weise interpretierbar sein

• nur eine Aussage pro Item (kein „double-bind“)

• Unabhängigkeit der Antwort von Vorwissen

• eindeutige Definition von Zeitspannen (schlecht z.B. „in letzter Zeit“)

Welche weiteren Aspekte gibt es bei der Itemformulierung?

• i.d.R. Items mit extremer Zustimmungs- oder Lösungswahrscheinlichkeit

vermeiden

• auf unterschiedliche Itemschwierigkeiten achten

• Vermeidung von Items, die schnell veralten könnten

• Vermeidung von Items, deren Antwort auch von Wertorientierungen

abhängen könnte

• Vermeidung von Items, die konstruktfremde Emotionen evozieren

könnten

• Vermeidung suggestiver Formulierungen

Vorläufige Testversion

Die Items werden zur empirischen Erprobung zu einer vorläufigen Testversion

zusammengestellt.

Wie soll die Reihenfolge der Items sein? (Leistungs- und Persönlichkeitstests?)

bei Leistungstests:

• i.d.R. in aufsteigender Schwierigkeit

• evtl. Eisbrecheritem

bei Persönlichkeitstests:

• möglichst zu verschiedenen Skalen vermischt

• Vermeidung von Kontexteffekten