Lernkartei Testtheorie und Fragebogenkonstruktion (Seite 3 von 8)

Karten	310
Lernende	42
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	08.05.2018 / 25.02.2024
Weblink	https://card2brain.ch/cards/20180508_testtheorie_und_fragebogenkonstruktion?max=40&offset=80
Einbinden	<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Confounder (confounder)

Ein Confounder ist eine eine Störvariable, die den untersuchten Zusammenhang zwischen Variablen beeinflusst, so dass unterschiedliche Einflüsse vermengt werden.

Cronbachs Alpha (Cronbach’s alpha)

Cronbachs Alpha: Koeffizient der internen Konsistenz als Reliabilitätsschätzung; beruht auf dem Verhältnis zwischen der Summe aus Varianzen und Kovarianzen der Items eines Tests und der Varianz der Testwertvariablen. Je höher die Kovarianzen zwischen den Testitems sind, desto höher werden die interne Konsistenz und damit die Reliabilität.

Cut-off-Punkt (cut-off-point) = Schwellenwert

Ein Schwellenwert ist der kritische Punkt einer Verteilung, der bei Klassifikationen die Zugehörigkeit zu unterschiedlichen Kategorien angrenzt.

Deckeneffekt (ceiling-effect)

Ein Deckeneffekt ist ein ein Effekt der entsteht, wenn der Maximalwert wegen einem zu geringeren Schwierigkeitsgrad von Aufgaben von vielen Versuchspersonen erreicht wird. Eine Varianzeinschränkung der Daten und eine geringe Trennschärfe der Items ist die Folge.

DIN 33430

DIN 33430 ist eine verbindliche Norm von Qualitätsstandards bei standardisierten Tests für die berufsbezogene Eignungsbeurteilung und die einzelnen Ablaufschritte.

disjunkt (disjunct)

Eigenschaft von Antwortalternativen, die vorliegt, wenn zwischen den Antwortalternativen keine Überlappungen bestehen.

diskrete (discrete)

Merkmalsausprägungen (z.B. kategoriale Variablen) mit Abstufungen.

Diskriminationsindex (index of discrimination)

Kennwert zur Identifizierung „nicht trennscharfer“ Items bei der Latent-ClassAnalyse.

Eichstichprobe (standardization sample)

Eine Eichstichprobe ist eine repräsentative Stichprobe von Probanden, die zur Normierung eines Testverfahrens eingesetzt wird.

Akquieszenz

Verzerrung des Ergebnisses, die dadurch entsteht, dass Probanden die Neigung haben, Antwortmöglichkeiten unabhängig vom Inhalt zuzustimmen.

Definition im Moosbrugger: Mit Akquiszenz bezeichnet man die Antworttendenz, auf Aussagen (Statements) unabhängig vom Inhalt eher mit Zustimmung zu reagieren.

Die Testtheorie ist die Grundlage für die...

Testkonstruktion
Testanalyse
Testauswertung
Testinterpretation.

Adaptiver Algorithmus

Ein adaptiver Algorithmus ist ein Regelsystem, welches beim adaptiven Testen die Itemauswahl zu Beginn und während des Tests regelt, sowie Kriterien der Testbeendigung spezifiziert.

Auswahlaufgaben (multiple choice)

Eine spezifische Aufgabenform, aus mehreren vorgegebenen Antwortalternativen die richtige Antwort auszuwählen.

Auswahlgrundgesamtheit (sampling frame)

Der Teil der Grundgesamtheit, der – da bekannt und zugänglich – als Erhebungsgrundgesamtheit verwendet wird.

Autokorrelation (auto-correlation)

Eine Korrelation von Variablen über Messzeitpunkte hinweg, die eine Interdependenz aufeinander folgender Beobachtungen aufzeigt.

Badness of fit (badness of fit) vs. Goodness of fit (goodness of fit)

Badness of fit: Maße der Anpassungsgüte, die den Grad der Nicht-Übereinstimmung zwischen einem theoretischen und einem empirischen Modell anzeigen. Hohe Maßzahlen sprechen für eine schlechte Anpassung.

Goodness of fit: Maße der Anpassungsgüte, die den Grad der Übereinstimmung zwischen einem theoretischen und einem empirischen Modell anzeigen. Hohe Maßzahlen sprechen für eine gute Anpassung.

Beurteilungsaufgabe (rating task):

In Persönlichkeitstests wird häufig der Grad der Zustimmung oder Ablehnung zu einer im Aufgabenstamm vorgelegten Aussage (Statement) als Indikator für die Ausprägung des untersuchten Persönlichkeitsmerkmals herangezogen.

Mögliches Antwortformat: Stufenantwortaufgaben

Kontinuierliche Analogskala ohne konkrete Skalenstufen
z.B visuelle Analogskala: Beantwortung des Items, indem an einer Stelle der Skala ein Kreuz gesetzt wird.
Diskret gestufte Ratingskala mit konkreten Skalenstufen
Nicht mehr wie sieben Stufen sonst Informationsverlust
Antworttendenzen sind zu berücksichtigen z.B. bei wenige Antwortkathegorien ist die Tendenz zum extremen Urteil weniger ausgeprägt.

Welche 6 Aspekte spielen bei der Konstruktion von Beurteilungsaufgaben eine Rolle?

Skalenstufen (viele oder wenige Skalenstufen)
Polarität der Antwortskala: unipolar oder bipolar?
Skalenpunkte (Numerische Ratingskala, Verbale Ratingskala, Optische Skala und Symbolskala, Kombinierte Skala)
Soll die Skala eine neutrale Mittelkategorie haben oder nicht?
Soll es eine "weiß nicht"- Kategorie geben?
Können auch asymetrische Beurteilungsskalen eingesetzt werden?

2. Polarität der Antwortskala

Unipolar vs. Bipolar (Beurteilungsaufgaben 2/6)

Unipolar: Die Skala hat einen "Nullpunkt" bzw. einen Bezugspunkt, der das geringste Ausmaß der Zustimmung kennzeichnet sowie einen positiven Pol, der die stärkste Zustimmung kennzeichnet
oder umgekehrt: Die Skala hat einen "Nullpunkt" bzw. einen Bezugspunkt, der das geringste Ausmaß der Ablehnung kennzeichnet sowie einen negativen Pol, der die stärkste Ablehnung kennzeichnet.

Bipolar: Bei einer bipolaren Skala reicht der Zustimmungsbereich/Ablehnungsbereich von einem positiven Pol, der eine starke Zustimmung ausdrückt , über einen Indifferzbereich zu eine negativen Pol, der eine starke Ablehnung ausdrückt.

1. Skalenstufen

Koninuierliche Analogskala vs. Diskret gestufte Ratingsskala (Beurteilungsaufgaben 1/6)

Kontinuierliche Analogskala ohne konkrete Skalenstufen
z.B visuelle Analogskala: Beantwortung des Items, indem an einer Stelle der Skala ein Kreuz gesetzt wird.
Diskret gestufte Ratingskala mit konkreten Skalenstufen
Nicht mehr wie sieben Stufen sonst Informationsverlust
Antworttendenzen sind zu berücksichtigen z.B. bei wenige Antwortkathegorien ist die Tendenz zum extremen Urteil weniger ausgeprägt.

3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)

Numerische Ratingskala (1/4)

Hier werden die Stufen mit Zahlen markiert.

Merke: Die Anwendung einer numerischen Skala stellt jedoch nicht sicher, dass die Gleichheit der Abstände zwischen den Skalenpukten auch gleichen Abständen im Urteil des Probanden entspricht.

Nachteil: Die Wahl der Numerierung kann eine Verschiebung der Antworten verursachen.
Skala: -2 bis 2 oder 1 bis 5

3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)

Verbale Ratingskala (2/4)

Alle Skalenpunkte werden mit Worten bezeichnet.

Vorteil: Interpretation der Skalenpunkte erfolgt intersubjektiv einheitlicher. (Der Probant braucht sich nicht vorstellen, was sich hinter den einzelnen Punkte verbirgt)
Die Testpersonen sind zufriedener, wenn nicht nur die zwei Extremwerte, sondern auch weitere verbale Beschreibungen aufweisen.
Nachteil: Es ist schwierig, Beschreibungen zu finden, welche äquidistante Abstände zwischen den Skalenstufen gewährleisten.

3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)

Optische Skala und Symbolskala (3/4)

Optische Skalen und Symbolskalen unterliegen keinen subjektiven Schwankungen hinsichtlich der Bedeutung sprachlicher Bezeichnungen, wie dies bei rein sprachlichen Formaten der Fall ist.

3. Wie sollen Skalenpunkte bezeichnet werden? (Beurteilungsaufgaben 3/6)

Kombinierte Skala (4//4)

Oft werden die verschiedenen Skalenbezeichnungen miteinander kombiniert. Von einer Vermengung einer verbalen mit einer numerischen Skala erhofft man sich Vorteile der beiden Formate. Es ist dabei zu beachten, dass die verwendeten Bezeichnungen möglichst genau mit den Zahlen korrespondieren sollen. So sollte man bspw. eine 5-stufige Intensitätsskala von »nie« bis »immer« nicht mit dem Zahlenschema von -2 bis +2 kombinieren, da dies die Eindeutigkeit der Interpretation absenkt; angemessen wären 0, 1, 2, 3, 4.

4. Soll die Skala eine neutrale Mittelkategorie haben oder nicht? (Beurteilungsaufgaben 4/6)

Eine neutrale mittlere Kategorie wird nicht ausschließlich im Sinne einer mittleren Merkamlsausprägung benutzt.

Ausweichoption bei unpassendem Wortlaut
Ausweichoption, wenn die Frage nicht verstanden wird
Ausweichoption, wenn die Antwort verweigert wird
Ausweichoption, wenn man die Antwort nicht weiß
Motivierten Probanten vermeiden die Kategorie
Probanten glauben, dass die mittlere Kategorie von "typischen/normalen" Personen angekreuzt wird und antwoten bewusst anders

=> Konfundierung (Vermischung, Vermengung) des interessierenden Kostrukts mit einem kostruktfremden Antwortverhalten - kann zu Validitätsproblemen und somit zu einer Verzerrung in der Interpretation der Befunde führen.

Fazit: alle Argumente sprechen gegen eine neutrale Mittelkategorie

5. Soll es eine "Weiß nicht"-Kategorie geben? Beurteilungsaufgaben 5/6)

Die »Weiß-nicht«-Kategorie vermindert das Problem der neutralen Mittelkategorie (s. o.), da den Probanden nun explizit die Möglichkeit einer Ausweichoption gegeben ist. Die neutrale Mittelkategorie kann nun ihre Funktion als Mitte der Beurteilungsskala erfüllen und muss nicht mehr wegen Schwierigkeiten in Aufgabenverständnis, Antwortvermeidung, geringer Motivation oder Erschöpfung bei zu langen Tests etc. gewählt werden.

6. Können auch asymmetrische Beurteilungsskalen eingesetzt werden? (Beurteilungsaufgaben 6/6)

Psychologische Tests bedienen sich dieses Formats selten, wohl aber Fragebogen in der Marktforschung und in der Kundenzufriedenheitsforschung. Z. B. werden Schokolade- und Pralinenprodukte meist so positiv bewertet, dass symmetrische bipolare Beurteilungsskalen nur unzureichend in der Lage wären, Differenzen in der Bewertung unterschiedlicher Marken aufzudecken.

Merkmalsarten (Testplanung)

1. Quantitativ vs qualitative Merkmale
2. Unidimensional vs. multidimensionale Merkmale
3. Zeitlich stabile vs. zeitlcih veränderbare Merkmale (siehe State-Trait-Ärgerausdrucks-Inventar "STAXI")

State-Trait-Ärgerausdrucks-Inventar (STAXI)

Zeitlich stabile vs. zeitlich veränderbare Merkmale: Ein Beispiel für einen Test, in dem beide Arten von Merkmalen erhoben werden, ist das »State-Trait-Ärgerausdrucks-Inventar« (STAXI) von Schwenkmezger, Hodapp und Spielberger (1992) – ein Verfahren zur Messung von vier dispositionellen Ärgerdimensionen (Traits) sowie der Intensität von situationsbezogenen Ärgerzuständen (States).

Nenne 5 Konstruktionsstrategien für die Entwicklung von Tests und Fragebogen (Strategien zur Testkonstruktion)

1. Intuitive Konstruktion:

Theorielos
Intuition und Erfahrung
Zu Beginn neuer Forschungszweige

2. Induktive Konstruktion:
Induktion ist eine Form des Schlussfolgerns, die aus dem Speziellen auf allgemeine Zusammenhänge schließt (psycholexikalischer Ansatz -> Big Five Persönlichkeitstests)

3. Rationale Konstruktion:
Methode der Deduktion - Welche Aufgabenvariablen haben Einfluß auf die Itemschwierigkeit? -> Schwierigkeits-Konstituenten

4. Externale/Kriteriumsorientierte Konstruktion:
Durch welche Items werden Gruppen unterscheidbar? => Items sollen das gewählte Kriterium geeignet vorhersagen

Eignungstest: geeignet/nichht-geeignet
Integritätstest: vertrauenswüdig-nicht-vertrauenswürdig
Klinische Tests (z.B. MMPI): Ähnlichkeit zu Gesunden / zu Personen mit klinischer Diagnose

5. Internale/Faktorenanalytische Konstruktion
Ziel: Strukturbildung in großen Itemsammlungen, für die bereits Daten vorliegen

Explorative Faktorenanalyse: Welche Faktoren reproduzieren die Zusammenhangsstrukur einer Korrelationsmatrix der Items?
Welche theoretischen Schlußfolgerungen lassen sich aus einer Faktorenstruktur ziehen? (Vgl. z.B. die Diskussion um den g-Faktor in der Intelligenztest-Entwicklung.)
Clusteranalyse: mathematisch-statistisches Konzept von ähnlichen Items / Aufgaben

Rationale Konstruktion (gehört zu den Konstruktionsstrategien)

Welche Aufgabenvariablen haben Einfluß auf die Itemschwierigkeit? -> Schwierigkeits-Konstituenten

Rationale Itemkonstruktion: Zunächst wird die latente Fähigkeit inhaltlich bestimmt, um dann entsprechend Faktoren festzulegen, die bei den Items entsprechend schwierigkeitserzeugend wirken könnten. Aus der Kombination dieser Faktoren wird schließlich ein Konstruktionsrational gebildet, anhand dessen Items mit ’bestimmbarer’ Schwierigkeit erzeugt werden können. => >Konstruktion eines Matrizen-Tests

Fehlerquellen bei der Itembeantwortung: Nenne drei Antworttendenzen.

Antworttendenzen

Tendenz zur Mitte
Tendenz zum extremen Urteil
Tendenz zu Beschönigung bis Verfälschung z.B. Soziale Unerwünschtheit

Was gehört zur Itemanalyse dazu? Nenne die drei Kennwerte.

Itemschwierigkeit
Itemvarianz
Itemtrennschärfe

Itemschwierigkeit - Formel und Wertebereich

Der Schwierigkeitsindex P_i eines Items i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktsumme aller n Probanden (Nenner) und der maximal erreichbaren Punktsumme aller n Probanden bei diesem Item (n ⋅ max(x_vi) multipliziert mit 100 => Je größer P_i, desto leichter das Item!

Der Schwierigkeitsindex Pi hat einen Wertebereich von 0 bis 100.
P_i = 0: Kein Proband das Item gelöst hat (Leistungstest) bzw. in Sinne des Kriteriums geantwortet hat (Persönlichkeitstest
-> Hohe Itemschwierigkeit
P_i = 100: Alle Probanden haben das Item gelöst (Leistungstest) bzw. in Sinne des Kriteriums beantwortet (Persönlichkeitstest)
-> Niedrige Itemschwierigkeit

Itemschwierigkeit: Wie verändert sich die Formel für die Itemschwierigkeit, wenn die minimal erreichte Punktzahl nicht Null ist?

Wenn die minimal erreichbare Punktzahl nicht null ist, dann wird P_i wie folgt bestimmt:

Aufgabe Persönlichkeitstest k > 2: Ermittle die Itemschwierigkeit.

Für Antworten auf das Item „Ich mag mich selbst nicht.“ erhält man auf einer fünfstufigen Skala (also k = 5) x_min = 0 und x_max = 4 Punkte für Neurotizismus.
In einer Stichprobe von N = 399 Probanden beträgt der Mittelwert für dieses Item 0,79.

Die Rechnung spricht für ein eher schwereres Item!

Aufgabe Leistungstest - Niveautest

In einer Klausuraufgabe in psychologischer Testkonstruktion erhält man für das Lösen einer Aufgabe einen Punkt (x_max = 1), für eine falsche Antwort null Punkte (x_min = 0).
Von 12 KursteilnehmerInnen lösen diese Aufgabe 9.

=> Eher leichtes Item!

Was ist bei der Itemschwierigkeit zu beachten?

Grundsätzlich sind Items mit mittlerer Schwierigkeit (Pi = .50) zu bevorzugen, da sie am besten zwischen unterschiedlichen Merkmalsausprägungen differenzieren können
Sehr leichte oder sehr schwere Items werden entweder von fast allen oder fast keinem Probanden gelöst keine bzw. geringer Informationsgehalt in Hinblick auf Unterschiede zwischen Probanden
Dennoch können einige Items mit hohen oder niedrigen Schwierigkeiten in einem Test zweckmäßig sein, um auch im unteren oder oberen Merkmalsbereich zu differenzieren

Itemvarianz (Itemanalyse)

Die Varianz \(σ\)²(x_i) eines einzelnen Items gibt an, wie stark die Antworten auf dieses Item in der Stichprobe streuen (Zur Erinnerung: Die Varianz einer Variablen ist die durchschnittliche quadrierte Abweichung der einzelnen Werte vom Mittelwert)

Nur ein Item, auf das Personen unterschiedlich antworten, kann zur Messung von Unterschieden zwischen Personen beitragen
Die Itemvarianz hängt mir der Itemschwierigkeit zusammen
Eine Varianz von \(σ\)²(x_i) = 0 würde bedeuten, dass alle Personen auf ein Item gleich geantwortet hätten
Die Zahlenwerte der Itemvarianz hängen von der jeweiligen Antwortskala ab
Die Werte sind daher für sich genommen wenig aussagekräftig, können aber im Vergleich verschiedener Items aufschlussreich sein
Itemvarianz wird eher nicht für die Itemselektion verwendet

Itemtrennschärfe (Itemanalyse)

Wichtigster Itemkennwert im Kontext der klassischen Testtheorie
Liefert eine Einschätzung, wie gut ein Item zwischen zwei Personen mit niedriger und hoher Merkmalsausprägung trennt.
Die Trennschärfe ri_it eines Items i drückt aus, wie groß der korrelative Zusammenhang der Itemwerte x_vi mit den Testwerten x_v ist, die aus sämtlichen Items des Tests gebildet werden.
Zur Berechnung der Trennschärfe wird über alle n Probanden hinweg der Zusammenhang des Items i mit dem Testwert x_v bestimmt rit = r(x_vi, x_v).

Testtheorie und Fragebogenkonstruktion

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google