Testtheorie und Fragebogenkonstruktion
Psychologie
Psychologie
Fichier Détails
Cartes-fiches | 310 |
---|---|
Utilisateurs | 42 |
Langue | Deutsch |
Catégorie | Psychologie |
Niveau | Université |
Crée / Actualisé | 08.05.2018 / 25.02.2024 |
Lien de web |
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
|
Intégrer |
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Confounder (confounder)
Ein Confounder ist eine eine Störvariable, die den untersuchten Zusammenhang zwischen Variablen beeinflusst, so dass unterschiedliche Einflüsse vermengt werden.
Cronbachs Alpha (Cronbach’s alpha)
Cronbachs Alpha: Koeffizient der internen Konsistenz als Reliabilitätsschätzung; beruht auf dem Verhältnis zwischen der Summe aus Varianzen und Kovarianzen der Items eines Tests und der Varianz der Testwertvariablen. Je höher die Kovarianzen zwischen den Testitems sind, desto höher werden die interne Konsistenz und damit die Reliabilität.
Cut-off-Punkt (cut-off-point) = Schwellenwert
Ein Schwellenwert ist der kritische Punkt einer Verteilung, der bei Klassifikationen die Zugehörigkeit zu unterschiedlichen Kategorien angrenzt.
Deckeneffekt (ceiling-effect)
Ein Deckeneffekt ist ein ein Effekt der entsteht, wenn der Maximalwert wegen einem zu geringeren Schwierigkeitsgrad von Aufgaben von vielen Versuchspersonen erreicht wird. Eine Varianzeinschränkung der Daten und eine geringe Trennschärfe der Items ist die Folge.
DIN 33430
DIN 33430 ist eine verbindliche Norm von Qualitätsstandards bei standardisierten Tests für die berufsbezogene Eignungsbeurteilung und die einzelnen Ablaufschritte.
disjunkt (disjunct)
Eigenschaft von Antwortalternativen, die vorliegt, wenn zwischen den Antwortalternativen keine Überlappungen bestehen.
diskrete (discrete)
Merkmalsausprägungen (z.B. kategoriale Variablen) mit Abstufungen.
Diskriminationsindex (index of discrimination)
Kennwert zur Identifizierung „nicht trennscharfer“ Items bei der Latent-ClassAnalyse.
Eichstichprobe (standardization sample)
Eine Eichstichprobe ist eine repräsentative Stichprobe von Probanden, die zur Normierung eines Testverfahrens eingesetzt wird.
Akquieszenz
Verzerrung des Ergebnisses, die dadurch entsteht, dass Probanden die Neigung haben, Antwortmöglichkeiten unabhängig vom Inhalt zuzustimmen.
Definition im Moosbrugger: Mit Akquiszenz bezeichnet man die Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt eher mit Zustimmung zu reagieren.
Die Testtheorie ist die Grundlage für die...
Testkonstruktion
Testanalyse
Testauswertung
Testinterpretation.
Adaptiver Algorithmus
Ein adaptiver Algorithmus ist ein Regelsystem, welches beim adaptiven Testen die Itemauswahl zu Beginn und während des Tests regelt, sowie Kriterien der Testbeendigung spezifiziert.
Auswahlaufgaben (multiple choice)
Eine spezifische Aufgabenform, aus mehreren vorgegebenen Antwortalternativen die richtige Antwort auszuwählen.
Auswahlgrundgesamtheit (sampling frame)
Der Teil der Grundgesamtheit, der – da bekannt und zugänglich – als Erhebungsgrundgesamtheit verwendet wird.
Autokorrelation (auto-correlation)
Eine Korrelation von Variablen über Messzeitpunkte hinweg, die eine Interdependenz aufeinander folgender Beobachtungen aufzeigt.
Badness of fit (badness of fit) vs. Goodness of fit (goodness of fit)
Badness of fit: Maße der Anpassungsgüte, die den Grad der Nicht-Übereinstimmung zwischen einem theoretischen und einem empirischen Modell anzeigen. Hohe Maßzahlen sprechen für eine schlechte Anpassung.
Goodness of fit: Maße der Anpassungsgüte, die den Grad der Übereinstimmung zwischen einem theoretischen und einem empirischen Modell anzeigen. Hohe Maßzahlen sprechen für eine gute Anpassung.
Beurteilungsaufgabe (rating task):
In Persönlichkeitstests wird häufig der Grad der Zustimmung oder Ablehnung zu einer im Aufgabenstamm vorgelegten Aussage (Statement) als Indikator für die Ausprägung des untersuchten Persönlichkeitsmerkmals herangezogen.
Mögliches Antwortformat: Stufenantwortaufgaben
- Kontinuierliche Analogskala ohne konkrete Skalenstufen
z.B visuelle Analogskala: Beantwortung des Items, indem an einer Stelle der Skala ein Kreuz gesetzt wird. - Diskret gestufte Ratingskala mit konkreten Skalenstufen
Nicht mehr wie sieben Stufen sonst Informationsverlust
Antworttendenzen sind zu berücksichtigen z.B. bei wenige Antwortkathegorien ist die Tendenz zum extremen Urteil weniger ausgeprägt.
Welche 6 Aspekte spielen bei der Konstruktion von Beurteilungsaufgaben eine Rolle?
- Skalenstufen (viele oder wenige Skalenstufen)
- Polarität der Antwortskala: unipolar oder bipolar?
- Skalenpunkte (Numerische Ratingskala, Verbale Ratingskala, Optische Skala und Symbolskala, Kombinierte Skala)
- Soll die Skala eine neutrale Mittelkategorie haben oder nicht?
- Soll es eine "weiß nicht"- Kategorie geben?
- Können auch asymetrische Beurteilungsskalen eingesetzt werden?
2. Polarität der Antwortskala
Unipolar vs. Bipolar (Beurteilungsaufgaben 2/6)
Unipolar: Die Skala hat einen "Nullpunkt" bzw. einen Bezugspunkt, der das geringste Ausmaß der Zustimmung kennzeichnet sowie einen positiven Pol, der die stärkste Zustimmung kennzeichnet
oder umgekehrt: Die Skala hat einen "Nullpunkt" bzw. einen Bezugspunkt, der das geringste Ausmaß der Ablehnung kennzeichnet sowie einen negativen Pol, der die stärkste Ablehnung kennzeichnet.
Bipolar: Bei einer bipolaren Skala reicht der Zustimmungsbereich/Ablehnungsbereich von einem positiven Pol, der eine starke Zustimmung ausdrückt , über einen Indifferzbereich zu eine negativen Pol, der eine starke Ablehnung ausdrückt.
1. Skalenstufen
Koninuierliche Analogskala vs. Diskret gestufte Ratingsskala (Beurteilungsaufgaben 1/6)
- Kontinuierliche Analogskala ohne konkrete Skalenstufen
z.B visuelle Analogskala: Beantwortung des Items, indem an einer Stelle der Skala ein Kreuz gesetzt wird. - Diskret gestufte Ratingskala mit konkreten Skalenstufen
Nicht mehr wie sieben Stufen sonst Informationsverlust
Antworttendenzen sind zu berücksichtigen z.B. bei wenige Antwortkathegorien ist die Tendenz zum extremen Urteil weniger ausgeprägt.
3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)
Numerische Ratingskala (1/4)
Hier werden die Stufen mit Zahlen markiert.
Merke: Die Anwendung einer numerischen Skala stellt jedoch nicht sicher, dass die Gleichheit der Abstände zwischen den Skalenpukten auch gleichen Abständen im Urteil des Probanden entspricht.
Nachteil: Die Wahl der Numerierung kann eine Verschiebung der Antworten verursachen.
Skala: -2 bis 2 oder 1 bis 5
3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)
Verbale Ratingskala (2/4)
Alle Skalenpunkte werden mit Worten bezeichnet.
Vorteil: Interpretation der Skalenpunkte erfolgt intersubjektiv einheitlicher. (Der Probant braucht sich nicht vorstellen, was sich hinter den einzelnen Punkte verbirgt)
Die Testpersonen sind zufriedener, wenn nicht nur die zwei Extremwerte, sondern auch weitere verbale Beschreibungen aufweisen.
Nachteil: Es ist schwierig, Beschreibungen zu finden, welche äquidistante Abstände zwischen den Skalenstufen gewährleisten.
3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)
Kombinierte Skala (4//4)
Oft werden die verschiedenen Skalenbezeichnungen miteinander kombiniert. Von einer Vermengung einer verbalen mit einer numerischen Skala erhofft man sich Vorteile der beiden Formate. Es ist dabei zu beachten, dass die verwendeten Bezeichnungen möglichst genau mit den Zahlen korrespondieren sollen. So sollte man bspw. eine 5-stufige Intensitätsskala von »nie« bis »immer« nicht mit dem Zahlenschema von -2 bis +2 kombinieren, da dies die Eindeutigkeit der Interpretation absenkt; angemessen wären 0, 1, 2, 3, 4.
4. Soll die Skala eine neutrale Mittelkategorie haben oder nicht? (Beurteilungsaufgaben 4/6)
Eine neutrale mittlere Kategorie wird nicht ausschließlich im Sinne einer mittleren Merkamlsausprägung benutzt.
- Ausweichoption bei unpassendem Wortlaut
- Ausweichoption, wenn die Frage nicht verstanden wird
- Ausweichoption, wenn die Antwort verweigert wird
- Ausweichoption, wenn man die Antwort nicht weiß
- Motivierten Probanten vermeiden die Kategorie
- Probanten glauben, dass die mittlere Kategorie von "typischen/normalen" Personen angekreuzt wird und antwoten bewusst anders
=> Konfundierung (Vermischung, Vermengung) des interessierenden Kostrukts mit einem kostruktfremden Antwortverhalten - kann zu Validitätsproblemen und somit zu einer Verzerrung in der Interpretation der Befunde führen.
Fazit: alle Argumente sprechen gegen eine neutrale Mittelkategorie
5. Soll es eine "Weiß nicht"-Kategorie geben? Beurteilungsaufgaben 5/6)
Die »Weiß-nicht«-Kategorie vermindert das Problem der neutralen Mittelkategorie (s. o.), da den Probanden nun explizit die Möglichkeit einer Ausweichoption gegeben ist. Die neutrale Mittelkategorie kann nun ihre Funktion als Mitte der Beurteilungsskala erfüllen und muss nicht mehr wegen Schwierigkeiten in Aufgabenverständnis, Antwortvermeidung, geringer Motivation oder Erschöpfung bei zu langen Tests etc. gewählt werden.
6. Können auch asymmetrische Beurteilungsskalen eingesetzt werden? (Beurteilungsaufgaben 6/6)
Psychologische Tests bedienen sich dieses Formats selten, wohl aber Fragebogen in der Marktforschung und in der Kundenzufriedenheitsforschung. Z. B. werden Schokolade- und Pralinenprodukte meist so positiv bewertet, dass symmetrische bipolare Beurteilungsskalen nur unzureichend in der Lage wären, Differenzen in der Bewertung unterschiedlicher Marken aufzudecken.
Merkmalsarten (Testplanung)
1. Quantitativ vs qualitative Merkmale
2. Unidimensional vs. multidimensionale Merkmale
3. Zeitlich stabile vs. zeitlcih veränderbare Merkmale (siehe State-Trait-Ärgerausdrucks-Inventar "STAXI")
State-Trait-Ärgerausdrucks-Inventar (STAXI)
Zeitlich stabile vs. zeitlich veränderbare Merkmale: Ein Beispiel für einen Test, in dem beide Arten von Merkmalen erhoben werden, ist das »State-Trait-Ärgerausdrucks-Inventar« (STAXI) von Schwenkmezger, Hodapp und Spielberger (1992) – ein Verfahren zur Messung von vier dispositionellen Ärgerdimensionen (Traits) sowie der Intensität von situationsbezogenen Ärgerzuständen (States).
Nenne 5 Konstruktionsstrategien für die Entwicklung von Tests und Fragebogen (Strategien zur Testkonstruktion)
1. Intuitive Konstruktion:
- Theorielos
- Intuition und Erfahrung
- Zu Beginn neuer Forschungszweige
2. Induktive Konstruktion:
Induktion ist eine Form des Schlussfolgerns, die aus dem Speziellen auf allgemeine Zusammenhänge schließt (psycholexikalischer Ansatz -> Big Five Persönlichkeitstests)
3. Rationale Konstruktion:
Methode der Deduktion - Welche Aufgabenvariablen haben Einfluß auf die Itemschwierigkeit? -> Schwierigkeits-Konstituenten
4. Externale/Kriteriumsorientierte Konstruktion:
Durch welche Items werden Gruppen unterscheidbar? => Items sollen das gewählte Kriterium geeignet vorhersagen
- Eignungstest: geeignet/nichht-geeignet
- Integritätstest: vertrauenswüdig-nicht-vertrauenswürdig
- Klinische Tests (z.B. MMPI): Ähnlichkeit zu Gesunden / zu Personen mit klinischer Diagnose
5. Internale/Faktorenanalytische Konstruktion
Ziel: Strukturbildung in großen Itemsammlungen, für die bereits Daten vorliegen
- Explorative Faktorenanalyse: Welche Faktoren reproduzieren die Zusammenhangsstrukur einer Korrelationsmatrix der Items?
- Welche theoretischen Schlußfolgerungen lassen sich aus einer Faktorenstruktur ziehen? (Vgl. z.B. die Diskussion um den g-Faktor in der Intelligenztest-Entwicklung.)
- Clusteranalyse: mathematisch-statistisches Konzept von ähnlichen Items / Aufgaben
Rationale Konstruktion (gehört zu den Konstruktionsstrategien)
Welche Aufgabenvariablen haben Einfluß auf die Itemschwierigkeit? -> Schwierigkeits-Konstituenten
Rationale Itemkonstruktion: Zunächst wird die latente Fähigkeit inhaltlich bestimmt, um dann entsprechend Faktoren festzulegen, die bei den Items entsprechend schwierigkeitserzeugend wirken könnten. Aus der Kombination dieser Faktoren wird schließlich ein Konstruktionsrational gebildet, anhand dessen Items mit ’bestimmbarer’ Schwierigkeit erzeugt werden können. => >Konstruktion eines Matrizen-Tests
Fehlerquellen bei der Itembeantwortung: Nenne drei Antworttendenzen.
Antworttendenzen
- Tendenz zur Mitte
- Tendenz zum extremen Urteil
- Tendenz zu Beschönigung bis Verfälschung z.B. Soziale Unerwünschtheit
Was gehört zur Itemanalyse dazu? Nenne die drei Kennwerte.
- Itemschwierigkeit
- Itemvarianz
- Itemtrennschärfe
Itemschwierigkeit - Formel und Wertebereich
Der Schwierigkeitsindex Pi eines Items i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktsumme aller n Probanden (Nenner) und der maximal erreichbaren Punktsumme aller n Probanden bei diesem Item (n ⋅ max(xvi) multipliziert mit 100 => Je größer Pi , desto leichter das Item!
Der Schwierigkeitsindex Pi hat einen Wertebereich von 0 bis 100.
Pi = 0: Kein Proband das Item gelöst hat (Leistungstest) bzw. in Sinne des Kriteriums geantwortet hat (Persönlichkeitstest
-> Hohe Itemschwierigkeit
Pi = 100: Alle Probanden haben das Item gelöst (Leistungstest) bzw. in Sinne des Kriteriums beantwortet (Persönlichkeitstest)
-> Niedrige Itemschwierigkeit
Aufgabe Persönlichkeitstest k > 2: Ermittle die Itemschwierigkeit.
Für Antworten auf das Item „Ich mag mich selbst nicht.“ erhält man auf einer fünfstufigen Skala (also k = 5) xmin = 0 und xmax = 4 Punkte für Neurotizismus.
In einer Stichprobe von N = 399 Probanden beträgt der Mittelwert für dieses Item 0,79.
Was ist bei der Itemschwierigkeit zu beachten?
- Grundsätzlich sind Items mit mittlerer Schwierigkeit (Pi = .50) zu bevorzugen, da sie am besten zwischen unterschiedlichen Merkmalsausprägungen differenzieren können
- Sehr leichte oder sehr schwere Items werden entweder von fast allen oder fast keinem Probanden gelöst keine bzw. geringer Informationsgehalt in Hinblick auf Unterschiede zwischen Probanden
- Dennoch können einige Items mit hohen oder niedrigen Schwierigkeiten in einem Test zweckmäßig sein, um auch im unteren oder oberen Merkmalsbereich zu differenzieren
Itemvarianz (Itemanalyse)
Die Varianz \(σ\)2(xi) eines einzelnen Items gibt an, wie stark die Antworten auf dieses Item in der Stichprobe streuen (Zur Erinnerung: Die Varianz einer Variablen ist die durchschnittliche quadrierte Abweichung der einzelnen Werte vom Mittelwert)
- Nur ein Item, auf das Personen unterschiedlich antworten, kann zur Messung von Unterschieden zwischen Personen beitragen
- Die Itemvarianz hängt mir der Itemschwierigkeit zusammen
- Eine Varianz von \(σ\)2(xi) = 0 würde bedeuten, dass alle Personen auf ein Item gleich geantwortet hätten
- Die Zahlenwerte der Itemvarianz hängen von der jeweiligen Antwortskala ab
- Die Werte sind daher für sich genommen wenig aussagekräftig, können aber im Vergleich verschiedener Items aufschlussreich sein
- Itemvarianz wird eher nicht für die Itemselektion verwendet
Itemtrennschärfe (Itemanalyse)
- Wichtigster Itemkennwert im Kontext der klassischen Testtheorie
- Liefert eine Einschätzung, wie gut ein Item zwischen zwei Personen mit niedriger und hoher Merkmalsausprägung trennt.
- Die Trennschärfe riit eines Items i drückt aus, wie groß der korrelative Zusammenhang der Itemwerte xvi mit den Testwerten xv ist, die aus sämtlichen Items des Tests gebildet werden.
- Zur Berechnung der Trennschärfe wird über alle n Probanden hinweg der Zusammenhang des Items i mit dem Testwert xv bestimmt rit = r(xvi, xv).