Glossar Moosbrugger Kelava Testkonstruktion Modul 6a Fernuniversität Hagen
Glossar Moosbrugger Kelava Testkonstruktion Modul 6a Fernuniversität Hagen
Glossar Moosbrugger Kelava Testkonstruktion Modul 6a Fernuniversität Hagen
Set of flashcards Details
Flashcards | 173 |
---|---|
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 23.07.2019 / 12.04.2023 |
Weblink |
https://card2brain.ch/box/20190723_glossar_moosbrugger_kelava_testkonstruktion_modul_6a_fernuniversitaet_hagen
|
Embed |
<iframe src="https://card2brain.ch/box/20190723_glossar_moosbrugger_kelava_testkonstruktion_modul_6a_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
"Zieht bei der Testwertbestimmung jene Anzahl an ""richtigen"" Lösungen ab, die nur durch Erraten der richtigen Antworten entstanden ist."
Die Receiver-Operating-Characteristics-(ROC)-Analyse ermöglicht für eine binäre Klassifikation (z.B. krank vs. nicht krank) den zur Fallunterscheidung verwendeten Schwellenwert optimal in der Weise festzulegen, dass Trefferquote und Quote korrekter Ablehnungen maximiert werden.
Bezeichnet die Messgenauigkeit eines Tests. Ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Je höher die Einflüsse solcher zufälligen Messfehler sind, desto weniger reliabel ist das Testverfahren.
Gütekriterium zur Beurteilung der Messgenauigkeit eines Tests. In der Klassischen Testteorie wird Reliabilität als Verhältnis zwischen true score-Varianz Var(τ) und Testwertevarianz Var(x) definiert.
Stimmt hinsichtlich der Schwierigkeitsverteilung mit der Grundgesamtheit aller merkmalsrelevanten Aufgaben überein und erlaubt somit eine kriteriumsorientierte Testwertinterpretation in Bezug auf die Aufgabeninhalte.
Eine Stichprobe weist dieses Merkmal dann auf, wenn sie hinsichtlich ihrer Zusammensetzung die jeweilige Zielpopulation möglichst genau abbildet.
Methode der Reliabilitätsschätzung. Ein Test wird zu zwei Messzeitpunkten der gleichen Stichprobe vorgegeben. Die Korrelation der Testwerte beider Messzeitpunkte dient als Maß der Reliabilität des Tests.
"In der Testentwicklungsphase wird der Proband ""zurückblickend"" über Schwierigkeiten bei der Beantwortung der einzelnen Items befragt."
Im Rahmen kriteriumsorientierter Testwertinterpretation jener Testwert, ab dem das Kriterium als zutreffend angenommen wird. Kann z.B. mittels ROC-Analyse empirisch bestimmt werden.
σi ist ein Itemparameter, der durch jene Merkmalsausprägung ξ definiert ist, bei der die Lösungswahrscheinlichkeit des Items 50% beträgt.
Die Pflicht zur Regelung der Verfügbarkeit, Aufbewahrungsdauer und Verwendung von Testdaten (inkl. des Testprotokolls und aller schriftlichen Belege) und Schutz der Identität von Probanden.
Ein Test erfüllt dieses Gütekriterium, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
Beinhaltet die Antworttendenz eines Probanden, sich selbst so darzustellen, wie es soziale Normen seiner Wahrnehmung nach erfordern (auch soziale Desirabilität genannt).
Formel zur Schätzung der Reliabilität eines Tests bei Verlängerung des Tests um homogene Testteile; findet auch bei der Splithalf-Reliabilität Verwendung, bei der die Halbtest-Reliabilität auf die Reliabilität des Gesamttests aufgewertet wird.
Leistungstests mit meist einfachen Aufgaben, wobei erhoben wird, wie viele Aufgaben unter Zeitdruck gelöst werden können. (Auch: Geschwindigkeitstests)
Liegt vor, wenn alle IC-Funktionen die gleiche Form aufweisen, d.h. lediglich entlang der ξ-Achse parallel verschoben sind. Ist dies der Fall, kann der Schwierigkeitsunterschied zweier Items (σj - σi) unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen ξ untersucht wurden. In Umkehrung kann auch der Fähigkeitsunterschied zweier Personen (ξw – ξv) unabhängig von den verwendeten Items festgestellt werden.
Beschreibt das Ausmaß der durch die Situation und die Person-Situation-Interaktion erklärten Varianz relativiert an der Gesamtvarianz einer Messvariablen.
Methode der Reliabilitätsschätzung. Aus den Items eines Tests werden zwei möglichst parallele Testhälften gebildet. Aus der Korrelation der Testwerte der Halbtests wird mittels Spearman-Brown-Korrektur die Reliabilität des Gesamttests geschätzt.
Die Standardabweichung gibt die Streuung der Testwertvariable x-quer um den Mittelwert an. Ist die Testwertvariable normalverteilt, so befinden sich im Bereich xquer ± 1 /SD(x) ca. 68% der Testwerte, im Bereich xquer ± 2 /SD(x)ca. 95% der Testwerte.
Der Standardmessfehler SD(ε) eines Tests resultiert aus der Unreliabilität des Tests und errechnet sich als Wurzel aus der Fehlervarianz eines Tests. Der Standardmessfehler ist bei höherer Reliabilität kleiner und bei niedrigerer Reliabilität größer.
Die z-Norm sowie weitere durch Lineartransformationen gewonnene Normen (z.B. IQ- oder T-Norm).
Ein zeitlich begrenzter biologischer, emotionaler und kognitiver Zustand, in dem sich eine Person befinden kann. Er kennzeichnet sich durch personenbedingte (d.h. trait-bedingte), situativ bedingte und durch die Interaktion zwischen Person und Situation bedingte Einflüsse.
Bedeutet, dass in IRT-Modellen die Itemparameter unabhängig von den Personen und die Personenparameter unabhängig von den Items geschätzt werden können.
Solche Methoden, die nicht austauschbar sind, weil sie sich qualitativ von anderen Methoden unterscheiden und kein Zufallsauswahl darstellen. Strukturell unterschiedliche Methoden sind z.B. Selbst- und Fremdbeurteilungen.
Veröffentlichtes Testbeurteilungssystem des Testkuratoriums zur standardisierten Erstellung und Publikation von Testrezensionen anhand eines vorgegebenen Kriterienkataloges.
Ist ein Phänomen, das die Validität bewertender Interpretationen im Bildungssystem dadurch gefährdet, dass gezielt spezielle Aufgaben geübt werden, um ein besseres Abschneiden der Schülerinnen und Schüler bei den Tests zu gewährleisten.
Eine Antworttendenz, die extreme Antworten eher vermeidet und mittlere Antwortkategorien eher bevorzugt.
Bezeichnet den Prozess einer qualitativ hochwertigen Übertragung (Übersetzung unter Berücksichtigung von Konstruktäquivalenz) und empirischen Evaluation psychologischer Tests aus anderen Sprachen und in andere Sprachen unter Beachtung der kulturellen Unterschiede.
Dient dazu, Normwerte zur normorientierten Testwertinterpretation zu gewinnen. Dazu wird der Test an Personen einer Normierungsstichprobe, welche hinsichtlich einer definierten Bezugsgruppe repräsentativ ist, durchgeführt.
Stellen ein System zur Qualitätsbeurteilung psychologischer Tests dar. Folgende 10 werden üblicherweise unterschieden: Objektivität, Reliabilität, Validität, Skalierung, Normierung (Eichung), Testökonomie, Nützlichkeit, Zumutbarkeit, Unverfälschbarkeit und Fairness.
Zu beantwortende Aufgabe (Frage, Statement etc.) eines Tests.
Gremium der Föderation Deutscher Psychologievereinigungen (Deutsche Gesellschaft für Psychologie e.V. und Berufsverband Deutscher Psychologinnen und Psychologen e.V.), dessen Aufgabe es ist, die Öffentlichkeit vor unzureichenden diagnostischen Verfahren und vor unqualifizierter Anwendung diagnostischer Verfahren zu schützen.
Ein Test entspricht dann diesem Gütekriterium, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.
Vereinheitlichte Leitlinien, in denen sich allgemein anerkannte Zielsetzungen zur Entwicklung, Adaptation, Anwendung und Qualitätsbeurteilung psychologischer Tests widerspiegeln.
Das individuelle numerische Testresultat; wird aus den registrierten Antworten einer Testperson durch Anwendung definierter Regeln unmittelbar gebildet.
Sagt aus, wie breit die empirisch gewonnenen Testwerte einer Stichprobe um den Mittelwert der Testwerte verteilt sind. Die Streuung der Testwerte wird meist als Standardabweichung SD(x) angegeben; man gewinnt sie als Wurzel aus der Testwertevarianz Var(x).
Die Testwertevarianz Var(x) ist die Varianz der beobachteten Testwerte. Sie setzt sich aus der wahren Varianz Var(τ) und der Fehlervarianz Var(ε) zusammen.
Mehr oder weniger zeitlich stabiles Merkmal (Disposition), das personeninhärent und transsituativ überdauernd ist.
In der Multitrait-Multimethod-Analyse wird angenommen, dass in jeder Messung Einflüsse des zu messenden Konstrukts und der verwendeten Messmethode zu finden sind. (Multiple) Messungen eines Traits repräsentieren somit eine Trait-Methoden-Einheit.
Index zur Beurteilung der Güte eines LCA-Modells. Definiert als die durchschnittliche Höhe der maximalen bedingten Klassenzuordnungswahrscheinlichkeit Pmax(g|av) über alle in der Stichprobe vorkommenden Antwortmuster (Na) hinweg.