Cartes mémoires Testtheorie und Fragebogenkonstruktion (Seite 1 von 8)

Cartes-fiches	310
Utilisateurs	42
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	08.05.2018 / 25.02.2024
Lien de web	https://card2brain.ch/cards/20180508_testtheorie_und_fragebogenkonstruktion
Intégrer	<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was trifft auf die Itemschwierigkeit zu? Wählen Sie eine Antwort.

Die Itemschwierigkeit kann auch negative Werte annehmen.

Die Werte für die Itemschwierigkeit variieren manchmal von Person zu Person.

Die Itemschwierigkeit ist ein korrelativer Kennwert.

Aufgrund des Wertes der Itemschwierigkeit kann man immer feststellen, wie stark die Antworten auf dieses Item in der Stichprobe streuen.

Bei einem dichotomen Item eines Leistungstests indiziert die Itemschwierigkeit immer, wie groß der Anteil der Probanden/-innen ist, die das Item korrekt gelöst haben

Was trifft auf die Itemvarianz zu? Wählen Sie eine Antwort.

Wenn die Itemschwierigkeit exakt bei 100% liegt, ermöglicht dies zugleich eine maximal hohe Itemvarianz.

Die Zahlenwerte der Itemvarianz sind unabhängig von der jeweiligen Antwortskala

Ein Item weist maximale Varianz auf, wenn alle Personen das Item gleich beantworten.

Die Itemvarianz zeigt an, inwiefern unterschiedliche Personen ein Item auf unterschiedliche Art beantworten.

Die Itemvarianz kann nur Werte zwischen -1 und +1 annehmen.

In welchem Fall ist eine Anwendung der sogenannten Ratekorrektur innerhalb der deskriptivstatistischen Evaluation denkbar?

Bei Items eines Persönlichkeitstests.

Zur Korrektur der Itemvarianz bei Leitungstests.

Zur Korrektur der Itemschwierigkeit bei Auswahlaufgaben eines Leistungstests.

Zur Korrektur der Trennschärfe bei Leistungstests.

Zur Korrektur der Itemsschwierigkeit bei Leitungstest-Items, die nicht beantworten wurden.

In der unten dargestellten Tabelle finden Sie die Statistiken zu einzelnen Items. Alle Items gehören zur selben Skala. Die Items messen verschiedene Facetten der Arbeitszufriedenheit mit der Skala: "gar nicht zufrieden" (5), "eher nicht zufrieden" (4), "unentschieden" (3), "überwiegend zufrieden" (2) und "sehr zufrieden" (1). Sämtliche Items sind so formuliert, dass ein hoher Wert für Unzufriedenheit steht. Die Trennschärfe stellt in diesem Fall die korrigierte Trennschärfe dar.
Welche Aussage ist nicht zutreffend?
Wählen Sie eine Antwort:

Die Itemschwierigkeit von Item 1 ist kleiner als 14%

Die Itemschwierigkeit von Item 2 ist kleiner als 20%

Aus der Tabelle lässt sich ablesen, dass die Korrelation zwischen dem Item und der eigenen Skala (der Skala, zu der das Item gehört) bei Item 3 am höchsten ist.

Die Daten in der Tabelle bestätigen die Aussage, dass eine hohe Itemvarianz hohe Trennschärfe begünstigt.

Intemtrennschärfe von größer als .80 werden als zu schwer betrachtet, was in diesem Fall auf zwei Items zutrifft.

Ein Test zur Messung von "Zustandsangst" (Angst als State) besteht aus fünf (5) Items. Für die Items aus dem Test sind folgende Kennwerte bekannt. Für die Messung der Items wurden 5-stufige Ratingskalen verwerdet: von 1 (stimme überhaupt nicht zu) bis 5 (stimme voll zu).
Welche Aussage ist zutreffend?
Wählen Sie eine Antwort:

Die Items emo und zuv weisen einen positiven Exzess auf. Dies deutet auf eine im Vergleich zur Normalverteilung tendenziell breitere Testwertverteilung hin.

Die Werte der Trennschärfe bei dem Item kog deuten darauf hin, dass das Item noch umgepolt werden müsste.

Items kog und som sind linksschief verteilt. Das Bedeutet, dass tendenziell eine hohe Zustimmung zu den beiden Items zu finden ist.

Trennschärfen in einem Bereich von >=.50 gelten als hoch, sodass bei den 5 Items von einer tendenziell zufriedenstellenden Trennschärfe gesprochen werden kann.

Die Items erweisen sich als relativ änderungssensibel, was ein Hinweis darauf ist, dass tatsächlich ein zeitlich relativ instabiler Zustand gemessen wird.

Testtheorie

- Theorie über den Zusammenhang zwischen latenter (nicht beobachtbaren) Eigenschaft und beobachtbarem Testverhalten.
Oder: Formale Modelle über den Zusammenhang zwischen latenten Eigenschaften und beobachtbaren Tesergebnissen (Teswerten oder Itemantworten)
- Grundlage der Testkonstrution, Testanalyse, Testauswrtung und Testinterpretation.

Anliegen des psychologischen Testens

Erfassen latenter Eigenschaftsausprägung durch beobachtbares Verhalten
Rückschluss auf latente Eigenschaft aufgrund von mehreren Verhaltesbeobachtungen/Reaktionen auf mehrere Testitems

("Geht gerne auf Partys" => Extraversion = 120 Was sagt die Zahl 120 aus, auf mein latentes Merkmal, was dem zugrunde liegt?)

Testauswertung

Rückschluss vom Testergebnis auf latente Eigenschaft oder Fähigkeit

Test

Ein Test ist ein wisschenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkamle mit dem Ziel einer möglischt genauen quantitativen Aussage über den Grad der individuellen Merkamlsausprägung.

Indikator

beobachtbare Variable / manifeste Variable

Kausalität des Reflexives Messmodells
Kausalität des Formativen Messmodells

Reflexives Messmodell: Hohe Korrelationen unter den Indikationen werden als ein Hinweis auf die Validität und Reliabilität des Messmodells angesehen.

Formatives Messmodell: die Richtung der Kausalität ist entgegengesetzt, die Indikationen verusrsachen das latente Konstrukt.

Nichtbeobachtbare Variable

theoretisches Konstrukt, latente Varible

Objektivität (Hauptgütekriterium)

Unabhängigkeit des Testergebnisses von Einflüssen außerhalb der getesteten Person.
Grad der Unabhängigkeit des Testerbebnisses von/vom

Testleiter
Sitautionsmerkmalen
Testauswerter
usw.

Durchführungsobjektivität (1/3)

Unabhängigkeit vom Verhalten des Versuchsleiter
(=> Standardisierung der Instruktion und Testdurchführung (Befragung am Computer): Situationsmerkmale haben einen geringen Einfluss auf die Testergebnisse)

Auswertungsobjektivität (2/3)

Unabhängigkeit vom Testauswerter
(=> geschlossenes Antwortformat mit algorithmischer Auswertung)

Interpretationsobjektivität (3/3)

Unabhängigkeit der Schlussfolgerung aus Testergebnis (=> Relative Einordnung anhand von Normwerten - Interpretation von Normwerten)

z.B. "Was bedeutet 120 bei Extraversion?" Ist das eine hohe oder eine geringe Merkmalsausprägung

Reliabilität (Hauptgütekriterium)

Testgenauigkeit/Zuverlässigkeit: ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.
=> Je kleiner der Messfehler, desto höher der wahre Anteil im gemessenerm Wert.

Merke: Die Reliabilität eines Tests ist der Anteil der wahren Varianz (Varianz der wahren Werte) an der Gesamtvarainz der Testwerte in einer Population. -> die Reliabilität wird umso größer, je mehr der Testwert dem "wahren" Wert entspricht.

Testwertvarianz = Wahre Varianz + Messfehlervarianz

Paralleltest-Reliabilität (1/4)

Reproduzierbarkeit des Testerbebnisses durch anderen Test, der geliches Merkaml misst.

Die Paralleltest-Reliabilität eines Testverfahrens ist hoch, wenn zwei parallele Testformen dieses Verfahrens hoch miteinander korrelieren, d.h. die gleichen wahren Werte und die gleiche Fehlervarianzen aufweisen.

Rel(x) = Corr(x_A , x_B)

Paralleltest oder Parallele Testformen oder Parallelformen (2/4)

Parallelformen sind voneinander verschiedene Varianten des gleichen Testverfahrens, die das gleiche Merkmal mit der gleichen Genauigkeit erfassen. Im Sinne der KTT sind zwei Testformen parallel, wenn sie gleiche wahre Werte und gleiche Fehlervarianzen aufweisen.

Retest-Reliabilität (3/4)

Reproduzierbarkeit des Testergebnisses bei Wiederholung desselben Tests an der gleichen Stichprobe. Es werden die Corr (x₁ , x₂)_{beider Durchgänge berechnet.
=> Die Restest-Reliabilität eines Testverfahrens ist hoch, wenn zwei Messungen mit diesem Test zu verschiedenen Messzeitpunkten hoch miteinander korrelieren.}

Corr (x₁ , x2) = Cov (x₁ , x2) / SD (x₁) * SD (x₂) = Var (tau) / Var (x) = Rel (x)

Merke: Macht man die Annahme, dass sich die wahren Werte der Personen zwischen den beiden Testdurchführungen nicht verändert haben und auch die Messfehlereinflüsse gleich geblieben sind (d.h. dass die Fehlervarianz und somit auch die Testwertvarianz unverändert sind), dann spricht die Korrelation der Werte aus den beiden Testdurchführungen dem gesuchten Anteil der wahren Varianz an der Varianz der Testwerte.

Testhalbierung/Splithalf-Reliabilität (4/4)

Reproduzierbarkeit des Testergebnisses zwischen Testhälften (split-half).
Hierzu werden die Items dieses Tests in zwei möglichst parallele Testhälften x_a und x_b aufgeteilt und die Korrelation der beiden Testhälften bestimmt.

Rel (x) = 2 * Rel(x_a) / 1 + Rel(x_b) (siehe Spearman-Brown-Korrektur)

Spearman-Brown-Korrektur

Splithalf-Reliabilität/Testhalbierungsreliabilität
Bei der Korrelation von Testhälften muss berücksichtigt werden, dass die resultierende Halbtestkorrelation nur der Reliabilität eines Tests halber Länge entspricht. Grundsätzlich erhöht sich aber die Reliabilität eines Test mit zunehmender Testlänge unter der Voraussetzung gleichartiger, homogener Items, und sie vermindert sich entsprechend bei Verkürzung des Tests. Zur Schätzung der Reliabilität des Gesamttests muss daher die Korrelation der beiden Testhälften rechnerisch auf die volle Testlänge aufgewertet werden. Dies geschied mit Hilfe der Spearman-Brown-Korrektur.

Reliabilität: Interne Konsistenz

Konsistenz multipler Testteile/Items (Cronbach's Alpha)
Jedes einzelne Item wird als seperater Testteil zur Messung dieses Merkmals aufgefasst.
Voraussetzung: alle Items messen das gleiche Merkmal.
Die Verallgemeinerung der Testhalbierungsmethode auf beliebig viele Testteile (Cronbach's Alpha) ist heute die am häufigsten verwendeten Methoden zur Bestimmung der internen Konsistenz (Konsistenzanalyse).

Merke: Die Interne Konsistenz eines Test ist umso höher, je höher die Korrelationen zwischen den Items im Durchschnitt sind.

Cronbach's Alpha
Tau-Äquivalenz
Essentielle Tau-Äquivalenz

Interne Konsistenz - Cronbach's Alpha
Um Cronbach's Alpha berechnen zu können, müssen alle Items die gleiche Schwierigkeit haben. Ist die Schwierigkeit der Items unterschiedlich wird anstelle des Paralleletätskonzepts das Konzept der Tau-Äquivalenz oder der essentiellen Tau-Äquivalenz angewendet.

Cronbach's Alpha: es werden gleiche wahre Werte der Items und gleich Fehlervarianz vorausgesetzt.
Tau-Äquivalenz: es werden gleiche wahre Werte der Items (oder Testteile), aber verschiedene Fehlervarianzen vorausgesetzt.
Eessentielle Tau-Äquivalenz: es werden verschiedene wahre Werte und verschiedene Fehlervarianzen voraugesetzt.

Qualitative Merkmale

Als qualitative Merkmale bezeichnet man Merkmale, bei denen sich die Merkmalsausprägungen (Antworten) zwar eindeutig in Kategorien unterscheiden lassen, diese Antworten jedoch keinen mathematischen Wert annehmen können.

Beispiele für qualitative Daten: Geschlecht, Religionszugehörigkeit oder Parteipräferenz.
Für solche Merkmale kann lediglich ein Befragungsergebnis in Anteilen (x von 100%) wiedergegeben werden.

Quantitative Merkmale

Als quantitative Merkmale bezeichnet man Merkmale, deren Merkmalsausprägungen intervallskalierte metrische Werte annehmen.
Beispiele: Körpergewicht, Einkommen, IQ-Wert.

Für diese Merkmale können verschiedene mathematische Rechenoperationen durchgeführt werden, wie zum Beispiel die Errechnung eines Durchschnitts. Man unterscheidet bei quantitativen Merkmalen Intervallskalen (ohne natürlichen Nullpunkt) und Ratio- bzw. Verhältnisskalen (mit natürlichem Nullpunkt). Auch Ordinalskalen werden als „scheinbar quantitativ“ beschrieben, sind aber streng genommen qualitativ (siehe qualitative Merkmale)

Bedingte Wahrscheinlichkeit

Die bedingte Wahrscheinlichkeit beschreibt, wie hoch die Wahrscheinlichkeit ist, dass ein Ereignis B unter der Bedingung eintritt, dass ein anderes Ereignis A bereits eingetreten ist.

Beispiel: Wie hoch ist die Wahrscheinlichkeit, dass es in einer Stunde regnet (B), wenn derzeit die Sonne scheint (A)? Die bedingte Wahrscheinlichkeit bezieht in diesem Beispiel in der Berechnung den aktuellen Wetterstand ein. Sie kommt zu einer anderen Prognose als die Berechnung einer unbedingten Wahrscheinlichkeit, die den derzeitigen Wetterzustand nicht berücksichtigt.

Kurtosis

Die Abweichung des Verlaufs einer Verteilung vom Verlauf einer Normalverteilung wird Kurtosis (Wölbung) genannt. Sie gibt an, wie spitz die Kurve verläuft. Unterschieden wird zwischen positiver, spitz zulaufender (leptokurtische Verteilung) und negativer, flacher (platykurtische Verteilung) Kurtosis.
Die Kurtosis zählt zu den zentralen Momenten einer Verteilung, mittels derer der Kurvenverlauf definiert wird.
Merke: Eine Kurtosis mit Wert 0 ist normalgipflig (mesokurtisch), mit Wert größer 0 ist steilgipflig und mit Wert unter 0 ist flachgipflig. Die Kurtosis wird auf der Plattform in der Expertenansicht für Verteilungen ausgewiesen.

Reliabiltäts-Valitditätsdilemma

Bei der Entwicklung eines Tests gilt es, beide Kriterien gleichzeitig zu optimieren. Die Reliabilität (Genauigkeit) eines Tests steigt an, wenn man die Testitems inhaltlich homogener, also ähnlicher macht. Die Validität (Gültigkeit) steigt an, wenn man die Items inhaltlich heterogener macht (vorausgesetzt, die Items repräsentieren valide das zu messende Konstrukt). Gleichzeitig den Test reliabler und valider zu machen, hat also etwas von einem Dilemma an sich. I. R. der KTT (Klassische Testtheorie) ist ableitbar, dass die V. eines Tests nicht größer sein kann als seine R., sofern die R. des Kriteriums kleiner oder gleich der R. des Tests ist. Man muss also eine hohe R. des Tests anstreben, um der V. «eine Chance» zu lassen: Tatsächlich lässt sich aber auch im Rahmen der KTT formal ableiten, dass die Validität eines Tests sinkt, wenn man die R. des Tests steigert.

operational

konkret beschrieben, messbar und damit umsetzbar
Beispiel: Operationale Ziele sind immer messbare Ziele, die so präzise definiert sind, dass Art und Ausmaß der Zielerreichung eindeutig bestimmt werden können.

Merkmale können qualitativ oder quantitativ sein:

qualitativ: Depressive vs. Nicht-Depressive

quantitativ: Intelligenz (graduelle Unterschiede zwischen den Personen)

Merkmale können unidimensional oder musltidimenional sein:

unidimensional: Depressivität mehr oder weniger (Grad der Depression)

mulidimensional: Persönlichkeit, Intelligenz (BIG5, HEXACO)

Dimensionalität hat Auswirkungen auf Testentwicklung, Erfassung der Testwerte

Merkmale können zeitlich stabil oder zeitlich instabil sein:

z. B. Stait-Trait-Angst (neue Lernkarte)

zeitlich stabil: Merkmal ist stabil egal zu welchem Zeitpunkt gemessen wird.

zeitlich instabil: Merkaml ist instabil, da es zu unterschiedlichen Zeitpunkten das Ergebnis anders ausfällt. z.B. Man macht einen Test zur Erfassung der Depression vor einer Therapie und im Anschluss an eine Therapie. Es wird erwartet, dass sich die Depression bei manchen Probanten verbessert.

Was versteht man unter "Stait-Trait-Angst"?

Das State-Trait-Angstinventar ist ein Fragebogen, mit dem sowohl die State-Angst (englisch „State Anxiety“) als auch die Trait-Angst (englisch „Trait-Anxiety“) erfasst werden kann. Mit „State-Angst“ („Status-Angst“) wird die Angst beschrieben, die aktuell vorhanden ist. Als „Status“ bezeichnen die Mediziner einen aktuellen Zustand. Mit „Trait-Angst“ ist die „Ängstlichkeit“ gemeint, mit der eine Person grundsätzlich ausgestattet ist (trait [englisch] = Wesenszug).

Testarten: Leistungstest

Tests zur Erfassung der individuellen kognitien Leistungsfähigkeit in Problemlösesituationen z.B. Intelligenztest, Konzentrationstest

Powertest/Niveautest: Powertests sind Leistungstests mit eher schwierigeren Aufgaben, wobei erhoben wird, welches Schwierigkeitsniveau der Aufgaben der Proband ohne Zeitbegrenzung bewäligen kann.
Speedtest/Geschwindigkeitstest: Speedtests sind Leistungstest mit meist einfachen Aufgaben, wobei erhoben wird, wie viele der Aufgaben unter Zeitdruck gelöst werden können.

Testarten: Persönlichkeitstest

Persönlichkeitsfragebögen: Selbstauskünfte zum Verhalten zur indirekten Erfassung von Persönlichkeitsmerkmalen - Sie erlauben Aussagen über den Ausprägungsgrad in den Persönlichkeitsmerkmalen.

Testarten: Projektive Tests

bei projektiven Tests kommt mehrdeutiges Stimulusmaterial (meist Bilder) zum Einsatz. Es wird angenommen, dass Probanden unbewusste oder verdrängte Bewusstseinsinhalte in das Bildmaterial hineinpojizieren und dadurch Persönlichkeitsmerkmale ermittelt werden können.

1. Formdeutverfahren z.B Rohrschach-Test (Tintenklekse)
2. Verbal-Thematische Verfahren z.B Thematischer Apperzeptionstest von Murray (TAT): Proband muss zu mehrdeutigen Bildern Geschichten erzählen. Das Ziel ist es, unbewusste Tendenzen wie Wünsche, Ängste, Konflikte, Abwehrmechanismen und Objektbeziehungen aufzudecken.
3. Zeichen- bzw. gestalterische Verfahren z.B. Familie in TierenObjektivität ist oft nicht erfüllt

Testarten: Situationsfragebogen

fiktive Situationen: Auswahl von Verhaltensoptionen (Sozialpsychologie)

Testarten: Einstellungstest" oder "Eignungstest?

Viele Berufe setzten Einstellungstests/Eignungstests voraus. Dabei werden mehrere Kompetenzen abgefragt. Im Anschluss daran wird entschieden, ob jemand im Stande ist diesen Job erfolgreich auszuüben z.B. Polizist, Soldat

Testarten: Motivations- und Interessensfragebogen

Verhaltnsabsichten, Präferenzen hinsichtlich zukünftigens Verhalten
z.B. Berufsbetatung

Testtheorie und Fragebogenkonstruktion

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google