m6 2
m,cx
m,cx
Set of flashcards Details
Flashcards | 66 |
---|---|
Language | Deutsch |
Category | Psychology |
Level | University |
Created / Updated | 09.02.2017 / 19.01.2018 |
Weblink |
https://card2brain.ch/box/20170209_m6_2
|
Embed |
<iframe src="https://card2brain.ch/box/20170209_m6_2/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Cronbach a Formel
Der Test wird in so viele Teile zerlegt, wie er Items besitzt:
\(a = {c \over c-1} * (1-{ \sum P(i,j) Si^2 \over Sx^2} )\)
c:= Anzahl der Items, Si := Varianz der Items, Sx Varianz des Gesamtwerts der Skala
Für Cronbach a gilt
- x Liefert eine präzise Schätzung im Fall essentiell τ-äquivalenter Messungen (gleiche Faktorladungen)
- x Liefert die Untergrenze der Reliabilität im Fall kongenerischer Messungen (eindimensional , jedoch mit unterschiedlichen Faktorladungen)
- x Kann die Reliabilität überschätzen, wenn die positive Korreliertheit der Items durch einen systematischen Messfehler zurückzuführen sind
- x Cr-α steigt, je positiver die Korrelationen zwischen den Items sind
- x Cr-α steigt, je mehr positiv korrelierte Items zu einer Skala zusammengefasst werden (Skalenlänge)
- x Ein negativer oder sehr niedriger Alpha kann von nicht umkodierten, negativ gepolten Items herrühren
- x Gibt es diese negativen Korrelationen tatsächlich, sollte stattdessen der Guttmann-λ2-Koeffizient herangezogen werden
- x Für dichotome Items empfiehlt sich der Kuder-Richardson 20 (KR-20) Koeffizient (automatisch in SPSS eingestellt)
Retest Reliabilität
der Test wird von derselben Gruppe von Personen zweimal bearbeitet.
Vorteile: Die beiden Tests sind tatsächlich identisch, weshalb sich die Methode auch für heterogene Tests oder Speedtests eignet.
Problematisch: x Voraussetzung ist die zeitliche Stabilität des Merkmals, d.h. bei zwischenzeitlichen Interventionen prinzipiell ungeeignet x Übungs- und Erinnerungseffekte überhöhen die gemessene Reliabilität x Zu lang gewählte Intervalle können jedoch zu zwischenzeitlichen Veränderungen oder Entwicklungen führen x Kein allgemeiner Richtwert, jedoch sind Intervalle von 4 Wochen bis 6 Monaten typisch
Paralleltest-Reliabilität
es werden zwei unabhängige Formen des selben Tests entwickelt
Vorteile: Anwendung bei heterogenen Tests möglich. Kein Einfluss des Messintervalls
Problematisch: Sehr hoher Aufwand der Testkonstruktion Typisch in der Intelligenzmessung (2 verschiedene Tests, die Abschreiben verhindern sollen)
In der Praxis seltenste Form der Reliabilitätsschätzung.
Interrater-Reliabilität
Beurteilungsübereinstimmung – entspricht dem Kriterium der Objektivität
Wichtig vor allem bei teil- und unstrukturierten Tests.
Als Maß wird unter anderem die Intraklassenkorrelation ICC verwendet. Unterschiedliche Beurteiler werden behandelt wie unterschiedliche Testteile in der Reliabilitätsmessung,
Der ICC ist ein Determinationsmaß und liegt zwischen 0 und 1 (kein Korrelationsmaß)
Standards für die Höhe der Reliabilität:
pauschale Faustregeln (z.B. >.70) sind problematisch, da es auch auf den Anwendungsfall ankommt. Das COTANTestbeurteilungssystem gibt z.B. an:
x Niveau 1:Einzelfalldiagnostik (wichtige Entscheidungen) >.80
x Niveau 2:Einzelfalldiagnostik (weniger wichtige Entscheidungen) >.70
x Niveau 3:Gruppenuntersuchungen, Forschungssituationen >.60
Validität
Aspekte und Definition der Validität:
x „Validity is the degree to which accumulated evidence and theory support specific interpretations of test scores entailed by proposed uses of a test”
x Validität last sich nicht mit einer Kennziffer fassen
x Es gibt nicht die Validität, sondern lediglich Hinweise auf Validität x Validität ist kein Merkmal eines Tests, sondern bezieht sich auf die Gültigkeit der Schlussfolgerungen, die aus den Testergebnissen gezogen werden
x Validität ist somit immer nur für einen spezifischen Zweck definiert
x Validität ist nach heutiger Auffassung ein einheitliches Konzept, oft wird aber von Validitätsarten gesprochen (Inhalt, Konstrukt, Kriterium) x Besser wäre die Kategorisierung in Validierungsstrategien, Facetten oder Quellen der Evidenz
Înhaltsvalidität
Unter Inhaltsvalidität versteht man, inwieweit ein Test oder ein Testitem das zu messende Merkmal repräsentativ erfasst.
Die Inhaltsvalidität
x Wird nicht mit einem Kennwert oder numerisch beschrieben x Basiert zwar auf logischen Überlegungen, ist aber nicht frei von Subjektivität
x Items sollten einen unmittelbaren Ausschnitt aus dem Verhaltensbereich darstellen
x Betrifft eher den Bereich der Testentwicklung (Generierung von Items aus dem Merkmalbereich) und kann theoriegeleitet oder operational erfolgen (z.B. Aufgabenpool bei einem Leistungstest)
x Sicherstellung in der Regel durch Expertenurteil
Augenscheinvalidität
Die Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint.
Das Konzept der Augenscheinvalidität hängt auch mit der Akzeptanz des Tests durch die VPn zusammen.
Konstruktvalidität
Ein Test weist Konstruktvalidität auf, wenn der Schluss vom Verhalten der Testpersonen innerhalb der Testsituation auf zugrundeliegende psychologische Persönlichkeitsmerkmale (latente Variablen) aufgezeigt wurde. Die Enge dieser Beziehungen wird aufgrund von testtheoretischen Annahmen und Modellen geprüft.
Konstruktvalidität beschreibt Cronbach als schrittweise Überprüfung der Regeln im nomologischen Netz. Das Nomologische Netz besteht aus allen latenten und manifesten Variablen einschließlich aller Verbindungslinien.
Die Konstruktvalidität wird entweder struktursuchend deskriptiv (z.B. EFA) oder strukturprüfend (z.B. CFA) beurteilt.
Konvergente und Disvergemte Validität
Bei der deskriptiven Beurteilung steht die Betrachtung theoriekonformer Zusammenhänge zu anderen Tests im Vordergrund:
- x Konvergente Validität: korrelative Messung des Zusammenhangs bzw. der Übereinstimmung zu einer konstruktnahen Variablen aus einem etablierten Test (auch Erfassung inhaltlicher Randbereiche)
- Divergente bzw. diskriminante Validität: Abgrenzung zu einer eher konstruktfernen Variable, wobei diese nicht vollkommen offensichtlich unterschiedliche Konstrukte beschreiben sollte (Unterscheidung verwandter Konstrukte)
Konvergente und Diskriminante Validität werden i.d.R. mittels bivariater Korrelationen interpretiert. Die Tatsache, dass Tests niemals 100% reliabel sind führt zu einer systematischen Unterschätzung dieser Korrelation, welche mittels Minderungskorrekturen ausgeglichen werden sollte.
Multi-Trait-Multi-Method (MTMM) Ansatz (Campbell und Fiske):
Der MTMM Ansatz dient der Überprüfung der Konstruktvalidität.
Es werden verschiedene Traits (z.B. Big 5) mit unterschiedlichen Methoden gemessen und eine Korrelationsmatrix der Methoden und Konstrukte erstellt.
Der Sinn der Überkreuzung von Konstrukten und Messmethoden ist es, den Einfluss der Messmethode vom Konstrukt zu trennen, in dem in der Matrix die konvergente Validität (gleiches Konstrukt, andere Methode) und die divergente Validität (gleiche Methode, unterschiedliche Konstrukte) verglichen wird.
Monomethod MTMM Matrix
Koeffizient
1. Monotrait-Monomenthod (Hauptdiagonale der MM Blöcke)
2. Heterotrait-Monomethod (Dreiecksmatrizen unter der Diagonale)
Interpretation
1.Reliabilität
2.Diskriminante Validität, wenn niedriger als 1 und 3
Heteromethod MTMM MAtrix
Koeffizient
3. Monotrait-Heteromethod (Hauptdiagonalen der HMBlöcke)
4. Heterotrait-Heteromethod (Dreiecksmatrizen unter der Diagonale)
Interpretation
3. Konvergente Validität wenn hoch; diskriminante Validität wenn höher als 2 und 4
4. diskriminante Validität, wenn niedriger als 3
Kriteriumsvalidität
Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten der Testperson innerhalb der Testsituation erfolgreich auf ein Kriterium, nämlich auf ein Verhalten außerhalb der Testsituation geschlossen werden kann. Die Enge der Beziehung ist das Ausmaß an Kriteriumsvalidität (Korrelationsschluss).
Die Abgrenzung zur konvergenten Validität liegt darin, dass hier ein konkreter Praxisbezug im Vordergrund steht (Gültigkeit der Schlüsse auf ein praktisch relevantes Kriterium).
Abhängig von der zeitlichen Verfügbarkeit des Außenkriteriums wird unterschieden zwischen
x Konkurrenter oder Übereinstimmungsvalidität: gleichzeitiges Vorliegen
x Retrospektive Validität: Kriterium lag schon vor
x Prognostische- oder Vorhersagevalidität: Prognose des zukünftigen Kriteriums
Messung (bei kontinuierlichen Kriterien) fast immer als bivariater Korrelationskoeffizient rtc
Effektstärke d
Für die Klassifikation von Personen in Gruppen (z.B. depressiv vs nicht depressiv) wird als Validitätsmaß die Effektstärke d verwendet. Näherungsweise ist bei kleineren Effektstärken Cohens d ~ 2r. Als Faustregel gilt :
x Schwacher Effekt: r=.10, d=.20
x Mittlerer Effekt: r=.30, d=.50
x Starker Effekt: r=.50, d=.80
Æ entscheidend ist auch hier die Schwere der Konsequenzen der Testwertinterpretation
Inkrementelle Validität
Für die Evaluation eines einzelnen Tests im Rahmen der Testkonstruktion interessiert man sich häufig für den Beitrag, den dieser neue Test über bereits vorhandenen Verfahren hinaus zur Aufklärung des Kriteriums leistet. Dieser zusätzliche Validitätsbeitrag ist die inkrementelle Validität.
Maß für die inkrementelle Validität ist ΔR.
Ermittelt wird ΔR mittels hierarchischer Regressionsanalysen.
Skalierung & Normierung
Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsrelationen adäquat abbilden.
Unter der Normierung / Eichung eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.
Kriterien aus der DIN 33430
- x Stichprobengröße: generell gilt, je breiter der Geltungsbereich hinsichtlich der Zielpopulation, desto größer die Stichprobe. Das COTAN System gibt die Größe in Abhängigkeit von der Entscheidungssituation an (n=300 bei Niveau 1)
- x Repräsentativität: Grundprinzip ist die Zufallsziehung; Minimalstandard ist die Entsprechung wesentlicher demographischer Merkmale (Alter, Geschlecht) mit der Eichstichprobe
- x Kontext: die Übertragbarkeit ist z.B. auch dann in Frage gestellt, wenn die Eichstichprobe unter „entspannten“ Forschungsbedingungen erhoben wurde und der Test anschließend in der Eignungsdiagnostik eingesetzt wird
- x Aktualität: Normstichproben müssen spätestens alle 8 Jahre überprüft werden
Eine Möglichkeit, das Problem der Übertragbarkeit zu entschärfen, ist das Erstellen differenzierter Normen für Teilpopulationen.
Testökonomie Und Nutzen
Ein Test erfüllt das Kriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.
Die Din 33430 fokussiert eher eine Kosten-Nutzen-Relation.
Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr nutzen als Schaden erwarten lassen.
Bei der zitierten Nützlichkeitsdefinition geht es im Kern darum, den (potenziellen) Schaden der Nicht-Anwendung eines Tests seinen Kosten gegenüberzustellen.
Fairness, Zumutbarkeit und Akzeptanz
Ein Test erfüllt das Gütekriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.
Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer und körperlicher Hinsicht nicht über Gebühr belastet.
Der Begriff der Akzeptanz bezieht sich auf die subjektiven, bewertenden Einstellungen und Reaktionen von Testteilnehmern und ist damit weiter gefasst als das Konzept der Zumutbarkeit.
Akzeptanz steht im Zusammenhang mit dem Gerechtigkeitsbegriff – positiv wirken hier Ergebnisrückmeldungen und die Gelegenheit zur Zwei-Wege Kommunikation.
Unverfälschbarkeit
Ein Testverfahren erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.
Leistungstests sind tendenziell gegen Faking-Good-Versuche immun (Ausnahme: Abschreiben, daher Paralleltestversionen). Anders sieht es aus bei Persönlichkeitsfragebögen, bei denen der Aspekt der sozialen Erwünschtheit eine Rolle spielen kann.
Kontrollieren lässt sich dieser Effekt (bedingt) durch:
- x Subtle Items (der Teilnehmer durchschaut nicht den Hintergrund der Frage)
- x Forced Choice: es muss zwischen gleich gut erscheinenden Antwortalternativen eine Wahl getroffen werden
- x Instruktionen, Warnungen bis hin zum simulierten Lügendetektor
- x Einfügen von Bogus Items – z.B. Kenntnisse und Erfahrungen mit nicht existierenden Gegenständen. Daraus lässt sich die Tendenz zu sozial erwünschten Antwortverhalten ableiten (hier gibt es Hinweise auf Validitätsgewinn)