Psychologie


Fichier Détails

Cartes-fiches 310
Utilisateurs 42
Langue Deutsch
Catégorie Psychologie
Niveau Université
Crée / Actualisé 08.05.2018 / 25.02.2024
Lien de web
https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion
Intégrer
<iframe src="https://card2brain.ch/box/20180508_testtheorie_und_fragebogenkonstruktion/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Testarten: Was macht ein Verhaltensfragebogen?

Abfrage des tatsächlichen Verhaltens in der Vergangenheit

Was sind die Ziele eines psychologischen Tests?

Allgemein: Informationen sammeln um Antworten auf Fragen zu finden
1. Quantifizieren und/oder Klassifizieren der Merkmalsausprägung eines Individuums
2. Ermittlung von Unterschieden zwischen Individuen oder Gruppen
3. Selektion aufgrund der Testergebnisse z.B. Studienplatz oder Arbeitsplatz
4. Profilerstellung unterschiedlicher Merkamlsausprägungen
5. Erfassfung von Veränerungen in den Merkamlen z.B. Interventionen, Entwicklungen

Was ist die Grundannahmen eines psychologischen Test?

Erfassen latenter Eigenschaftsauspägung durch beobachtbares Verhalten.
Rückschluss auf latente Eigenschaften aufgrund von mehreren Verhaltensbeobachtungen, d.h. Reaktionen auf mehrere Testitems. (Das Verhalten der Testperson/ Die Beantwortung der Testitems ist auf ein bestimmtes Merkmal rückführbar)

In der Testtheorie werden zwei Messmodell unterschieden. Welche?

Bei den Messmodellen geht es um den Zusammenhang zwischen den latenten Eigenschaften und dem beobachtbarem Testverhalten.
Reflexives Messmodell: gemessen wird dabei das beobachtbare Verhalten in Form von Itembeantwortung. Dabei sollten die Testitems alle ein latentes Merkmal erfassen.
Frage: Hat die latente Variable Einfluss auf die Items?
Annahme: Die Itembeantwortung wird von der Ausprägung im latenten Merkamal kausal beeinflusst. Die kausale Richtung geht dabei immer von der latenten Variable aus (die Pfeile gehen von dem Faktor zu den Items). Itemskorrelationen lassen sich zum Teil durch die latenten Variable erklären.
Formatives Messmodell: gemessen wird hier der Faktor z.B. Kundenzufriedenheit (dieses Messmodell wird häufig in der Wirtschaft verwendet)
Frage: Haben die Items (manifesten Variablen) Einfluss auf die latente Variable (Faktor)? Die kausale Richtung geht dabei immer von den Testitems aus.

Für was brauchen wir Testtheorien?

Testtheorien treffen eine Aussage über den Zusammenhang zwischen denm Testwert und der latenten Variable.
Frage: Wie beinflusst die latente Variable das beobachtbare Verhalten?
(siehe KTT und IRT)

Wir unterscheiden in der Psychologie zwischen zwei zentralen Testtheorien? Welche sind das?

1. Klassische Testtheorie KTT (=Messfehlertheorie): Die klassische Testtheorie bezieht sich auf die Komponenten des Messwertes: Der Testwert setzt sich additiv zusammen aus dem wahren Wer und dem Messfehler
Testwert = Wahrer Wert + Messfehler (unsystematisch/zufällig)

2. Probabilistische Testtheorie IRT (=Item Response Theory): Dabei geht es um den funktionalen Zusammenhang zwischen der Antwort im Test einer Person in einem Item und der Personenfähigkeit (Personenfähigkeit: Berücksichtigung der Itemschwierigkeit und weiteren Parameter)
 

Was sind die 7 Nebengütekriterien?

  • Skalierung
  • Normierung
  • Testökonomie
  • Nützlichkeit
  • Zumutbarkeit
  • Unverfälschbarkeit
  • Fairness

Was versteht man unter der "Spezifieschen Opjektivität"? 
-> gibt es nur in der Probabilistischen Testtheorie und hat nichts mit dem Hauptgütekriterium "Objektivität" zu tun

Definition: Spezifische Objektivität liegt vor, wenn alle IC-Funktionen die gleiche Form aufweisen, d.h. lediglich entlang der \(ξ-Achse\) parallel verschoben sind. Ist dies der Fall, kann der Schwierigkeitsunterschied zweier Items \((σj - σi)\)unabhängig davon festgestellt werden, ob Personen mit niedrigen oder hohen Merkmalsausprägungen \(ξ\) untersucht wurden. In Umkehrung kann auch der Fähigkeitsunterschied zweier Personen \((ξw-ξv)\) unabhängig von den verwendeten Items festgestellt werden.

Unabhängigkeit der Personenfähigkeit von der Auswahl der Testitems aus dem Itemuniversum
(egal welche Items die Peron bearbeitet, erhält man immer die gleiche Personenfähigkeit)

Was versteht man unter Cohen's Kappa?

Cohen's Kappa wird verwendet, um das Hauptgütekriterium Objektivität zu bestimmen.
Cohen's Kappa ist ein statistisches Maß für den Grad der Übereinstimmung zweier Beurteiler oder der Beurteilungen eines Raters zu verschiedenen Zeitpunkten, das auf „Ja-Nein-Urteilen“ beruht.

Beispiel: Angenommen, 20 Studenten bewerben sich für ein Stipendium. Die Entscheidung über Vergabe oder Nicht-Vergabe des Stipendiums erfolgt aufgrund der Beurteilungen zweier Professoren X und Y, die beide mit jedem Studenten ein Interview führen und sich anschließend für oder gegen den Studenten aussprechen.

Validität (Hauptgütekriterium)

Die Validität ist der Grad der Gültigkeit oder Aussagefähigkeit hinsichtlich des Merkmals, das der Test messen oder vorhersagen soll.
Ein Test ist valide, wenn er das Merkmal, dass er messen soll, auch tatsächlich misst und nicht etwas anderes.

Wichtig: Es gibt unterschiedliches Validitätsaspekte z.B. Inhaltsvalidität Konstruktvalidität, Kriteriumsvalidität und je nach Ziel des Testverfahrens, können die Aspekte unterschiedlich wichtig sein.

Inhaltsvalidität: Definition

Unter Inhaltsvalidität versteht man, inwieweit ein Test oder ein Testitem das zu messende Merkmal repräsentativ erfasst, d. h. dass die Testitems eine repräsentative Stichprobe aus dem Itemuniversum darstellen, mit dem das interessierende Merkmal erfasst werden kann. (z.B. Klausur deckt repräsentativ die gesamten Lerninhalte ab => Itemuniversum ist dabei der gesamte Stoff)

Konstruktvalidität

Ein Test weist Konstruktvalidität auf, wenn der Schluss vom Verhalten der Testperson innerhalb der Testsituation auf zugrunde liegende psychologische Persönlichkeitsmerkmale ("Konstrukte", "latente Variablen", "Traits") wie Fähigkeiten, Dispositionen, Charakterzüge, Einstellungen aufgezeigt werden.

Die Enge der Beziehungen wird aufgrund von testtheoretischen Annahmen und Modellen überprüft.Theoretische Einbettung und empirische Prüfung des Testverhaltens anhand eines nomologischen Netztwerks (MTMM)
Empirische Belege für die angenommenen Zusammenhänge (Konstruktion und beobachtbaren Testverhalten)

Nomologisches Netz (Konstruktvalidität)

Ein nomologisches Netz stellt ein Beziehungsgeflecht zwischen (latenten) Konstrukten und beobachtbaren Testvariablen dar. Die beiden Ebenen werden mit Axiomen bzw. empirischen Gesetzen beschrieben und durch Korrespondenzregeln miteinander verbunden.

Korrespondenzregel (auch Zuordnungsregel): Da die wissenschaftlichen Theorien zu einem größeren Teil aus der theoretischen Sprache und zu einem anderen Teil aus der Beobachtungssprache (d.i. Aussagen über empirische Sachverhalte) bestehen, ist es erforderlich, beide Teilsprachen durch spezielle Regeln miteinander zu verknüpfen. Durch die  Korrespondenzregel oder Zuordnungsregelne werden Beobachtungsterme und theoretische Terme einander zugeordnet. 

Kriteriumsvalidität

Aus dem Verhalten einer Testperson innerhalb der Testsituation kann erfolgreich auf ein Kriterium außerhalb der Testsituation geschlossen werden.

Beispiel: Berufsauswahl - Kristerien: Indikatoren für Berufserfolg. Test misst die Fähigkeiten,die den Berufserfolg beeinflussen.

Welche Beziehungen bestehen zwischen den Hauptgütekriterien?

Objektivität ist eine notwendige aber keine hinreichend Bedingung für Reliabilität - Reliabilität ist eine notwendige aber keine hinreichend Bedingung für die Validität.

Merke: Nur wenn etwas objektiv ist, dann ist es noch längst nicht reliabel. Und wenn etwas reliabel ist, dann ist es längst nicht valide.
Wenn ein Test allerdings valide ist, dann ist er in der Regel auch reliabel. Wenn ein Test valide und reliabel ist, dann ist er auch objektiv.

State

Ein State ist ein zeitlich begrenzter biologischer, emotionaler und kognitiver Zustand, in dem sich eine Person befindet. Er kennzeichnet sich durch personenbedingte (d.h trait-bedingte), situativ bedingte und durch die Interaktion zwischen Personen und Situation bedingte Einflüsse.

Skalierung (Nebengütekriterium)

Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbildet, d. h. dass eine leistungsfähige Testperson in einem Leistungstest einen besseren Testwert erhält als eine weniger leistungsfähigere Testperson.

Wie wird die Reliabilität ausgedrückt?

Die Reliabilität ist der Anteil der wahren Varianz an der Gesamtvarianz der Testwerte und wird ausgedrückt mit dem Reliabilitätskoeffizienten: 0 < gleicht Rel. < gleich 1

Rel. = 1 => keine Messfehler
Rel. = 0 => Testergebnisse sind nur durch Messfehler zustande gekommen

Merke: Die Reliabilität eines Testes sollte größer als 0.7 sein!

Augenscheinvalidität

Augenscheinvalidität gibt an, inwieweit der Validätsanspruch eines Tests einem Laien, vom bloßen Augenschein her gerechtfertigt erscheint, d. h. auf Seiten der Testperson der Test Akzeptanz genießt.

Es gibt zwei Ansätze bei der Beurteilung der Konstruktvalidität. Welche sind das?

1. Struktursuchendes deskriptives Vorgehen
a. Exploratorische Faktorenanalsen: Gewinnung von Hypothesen über ein- bzw. mehrdimensionale Merkmalsstruktur des Testitems, während innerhalb eines Merkmals die Faktorladungen Auskunft über die Homogenität des Testitems geben. Die so gewonnenen Merkamlsdimensionen erlauben eine erste deskriptive Einordnung in ein theoretisches Gefüge theoretischer Konstrukte.
b. Nomologische Netzwerke: Dienen dem Vergleich und der Betrachtung der Zusammenhänge anderer Tests (siehe Konvergente Validität und Diskriminante bzw. divergente Validität)

2. Strukturprüfendes Vorgehen
Dieser Ansatz erlaubt inferenzstatische Schlüsse bzgl. der Konstruktvalidität zu ziehen, was jedoch nur auf Basis von Testmodellen mit latenten Variablen möglich ist (IRT-Modellen und latente Strukturgleichungsmodellen)
Diese Verfahren stellein eine explizite und inferenzstatistisch überprüfbare Beziehungen zwischen zuvor genau definierten, latenten Merkmalen (z.B Intelligenz) und den manifesten Itemvariablen (z.B. Testitems) her.

Konvergente Validität vs. diskriminante bzw. divergente Validität (gehört zum Nomologischen Netzwerk innerhalb der  Konstruktvalidität)

Konvergente Validität: Überprüfung der Überinstimmung mit Tests, die gleiche oder ähnliche Merkamle messen.

Diskriminante bzw. divergente Validität: Überprüfung, ob der Test von Tests für andere Merkamla klar abgrenzbar ist.

Normierung (Nebengütekriterium)

Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystem mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkamlsausprägungen anderer Personen (der Eichstichprobe) eindeutig eingeordnet und interpretiert werden können.

 

Was ist der Zweck einer Normierung?

Der Zweck der Normierung eines Verfahrens besteht darin, möglichst aussagekrägtige Vergleichswerte von solchen Peronen zu erhalten, die der Testperson hinsichtlich relevanter Merkmale (z.B. Alter, Geschlecht, Schulbildung) ähnlich sind (Eichstichproben).

Ergebnisse der Testeichung dokumentiert man in Normtabellen und die Testergebnisse einer Person werden dann in Relation zu Testergebnissen von Personen aus der möglichst repräsentativen Eichstichprobe interpretiert.
Hierfür werden die individuellen Testwerte in Normwerte transfornmert, anhand dessen sich die getestete Peron hinsichlich der erfassten Merkmalsausprägung innerhalb der Bezugsgruppe positionieren lässt.

Es gibt zwei Verfahren zur Bildung von Normwerten. Welche sind das?

1. Bildung von Prozentrangnormen durch nicht lineare Transformantion auf Basis der Häufigkeitsverteilung

2. Bildung von Standardnormen durch Standardisierung an Mittelwert und Standardabweichung der Testwertverteiung z.B IQ-Werte, T-Werte, PISA-Skala, Stanine-Skala

Bildung von Prozentrangnormen (Nebengütekriterium -> Bildung von Normwerten)

Ein Przentrang gibt an, wie viel Prozent der Bezugsgruppe einen Teswtert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert xi der Testperson v.

Der Prozentrang kumuliert die in der Eichstichprobe erzielten prozentualen Häufigkeiten der Testwerte, beginnend am unteren Skalenende bis einschließlich zu jenem Testwert xi, den die gerade interessierende Testperson erzielte.

Bildung von Standardnormen (Nebengütekriterium -> Bildung von Normwerten)

Der zi - Normwert gibt an, wie stark der individuelle Testwert xi einer Testperson vom Mittelwert ¯x der Verteilung der Bezugsgruppe in Einheiten der Standardabweichungen SD der Verteilung abweicht.

Berechnugn zi - Normwertes (Standardwertes):

zi = (xi - x) / SD(x)

Warum braucht man oft zusätzliche Transformationen der Standardnormen?

Bei der Interpretation der Normwerte ist zu berücksichtigen, ob das Merkmal in der Population normalverteil ist, ansonsten müssen Prozentragwerte herangezogen werden, die diese nicht verteilungsgebunden sind.
Jedoch können nichtnormalverteilte Merkmale auch durch eine Flächentransformation normalisiert werden.

Des Weiteren ist die Verwendung von z-Normen eher unüblich, da mit ihrer Bildung negative Vorzeichen und Dezimalstellen einhergehen.
Stattdessen werden z-Normwerte weiteren Lineartransformationen unterzogen, um Normwerte mit positiven Vorzeichen sowie möglichst ganzzahligen Abstufungen zu erhalten, z.B. IQ-Werte, T-Werte, PISA-Skala, Stanine-Skala

Eine Testperson hat in einem Intelligenztest mit dem Mittelwert x=31 und der Standardabweichung von Sx =12 und einen Testwert von xv = 27 erzielt. Berechne den IQ-Wert.

Normierung -> Bildung von Normwerten -> Zusätzliche Transformation der Standardnormen:

Der Normwert ergibt sich forgendermaßen: zv = (27-31) / 12 = -0,33

Aus dem zv - Normwrt kann der Intelligenzquotient wie folgt bestimmt werden:
IQv = 100 + 15 * zv => 100 + 15 (-0,33) = 95
 

Normierung -  Geltungsbereich der Normtabelle

Der Geltungsbereich einer Normtabelle muss klar definiert sein, d.h. die für die Normierung erhobene Eichstichprobe muss repräsentativ für die Grundgesamtheit von Personen sein, die für die der Test prinzipiell anwendbar sein sollte.

Die Gültigkeit der Normwerte muss nach einer gewissen Zeit (etwa alle 8 Jahre) überprüft und ggf. eine Neunormierungen vorgenommen werden z.B. aufgrund von Lerneffekten in der Population (z.B. IQ - Flynn-Effekt)

Adaptives Testen (adaptive testing)

Adaptives Testen ist ein spezielles Vorgehen bei der Messung individueller Ausprägungen von Personmerkmalen, bei dem sich die Auswahl der zur Bearbeitung vorgelegten Items an der Leistungsfähigkeit des untersuchten Probanden orientiert.

Alpha-Fehler (alpha error)

Alpha-Fehler: Wahrscheinlichkeit, bei der statistischen Hypothesenprüfung eine zutreffende Nullhypothese zu verwerfen. Der Fehler tritt auf, wenn ein Effekt zwischen Variablen behauptet wird, aber faktisch (im Sinne der Nullhypothese) nicht vorliegt. Dieser Fehler 1. Art wird mit Festlegung des Signifikanzniveaus bei einem statistischen Test kontrolliert. Je kleiner das Signifikanzniveau gewählt wird, umso geringer die Wahrscheinlichkeit, dass ein Ergebnis per Zufall zustande gekommen ist. 

Alternativhypothese (alternative hypothesis)

Alternativhypothese ist die (eigentlich interessierende) Forschungshypothese, in der der erwartete Effekt behauptet wird. Bei Gültigkeit der Alternativhypothese resultiert ein statistisch signifikantes Ergebnis, das zur Zurückweisung der Nullhypothese (H0) und Annahme der Alternativhypothese (H1) führt.

Alternativmerkmal (dichotomous variable)

Alternativmerkmal ist eine Variable mit zwei (dichotomen) Merkmalsausprägungen.

Freies Antwortformat (free format)

Bei den Aufgaben sind keine Antwortalternativen vorgegeben. Die Antwort wird von der Person selbst formuliert bzw. produziert.

Axiom (axiom)

Ein Axiom ist eine theoretische Grundannahme, die ohne weitere Überprüfung als gegeben angesehen wird.

Beta-Fehler (beta error)

Beta-Fehler: Fehlerrisiko bei der statistischen Hypothesenprüfung, eine Nullhypothese zu akzeptieren, obwohl tatsächlich ein Effekt besteht. Der Fehler tritt auf, wenn die (nicht zutreffende) Nullhypothese nicht zurückgewiesen wird, obwohl die  Alternativhypothese gilt

Bias (bias)

Bias (bias): Einflüsse in einer Untersuchung, die eine systematische Verzerrung der Untersuchungsergebnisse bewirken können. Unterschieden werden Selektionsfehler (selection bias) durch nicht zufällige Stichproben, Informationsfehler durch fehlerhafte Angaben oder invalide Indikatoren sowie die Konfundierung (confounding bias) durch ungenügende Kontrollen von Störvariablen. Schließlich fällt unter diesen Begriff auch der Beurteilungsfehler, wenn Verzerrungseffekte bei der Beurteilung auftreten.

bivariat (bivariate)

bivariat: zwei Variabeln betreffend

Blindversuch (blinding)

Blindversuch: ein Experiment, bei dem der Versuchsperson verborgen bleibt, welches Treatment (z.B. ein Medikament oder ein  Placebo) verabreicht wird. Im DoppelBlindversuch bleibt das Treatment zusätzlich auch dem Versuchsleiter verborgen.

Bootstrap (resampling)

Bootstrap: Unter der Annahme, dass eine gezogene Zufallsstichprobe die gleiche Verteilung wie die Population besitzt, wird eine Approximation an die Population dadurch erreicht, indem zahlreiche Kopien der Zufallsstichprobe erzeugt werden, aus denen die gewünschte Verteilungsstatistik ermittelt wird.