Testtheorie und -praxis
Diagnostik VL Psychologie Master
Diagnostik VL Psychologie Master
Kartei Details
Karten | 57 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 25.04.2017 / 25.11.2023 |
Weblink |
https://card2brain.ch/box/20170425_testtheorie_und_praxis
|
Einbinden |
<iframe src="https://card2brain.ch/box/20170425_testtheorie_und_praxis/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Testgütekriterien - Was ist ihr Zweck? Wie viele gibt es?
Zweck: Instrument der Qualitätsbeurteilung psychologischer Tests
1. Objektivität
2. Reliabilität
3. Validität
4. Skalierung
5. Normierung (Eichung)
6. Testökonomie
7. Nützlichkeit
8. Zumutbarkeit
9. Unverfälschbarkeit
10. Fairness
Objektivität - Zweck, Definition, 3 Aspekte
Zweck: Stellt die Vergleichbarkeit von Testleistungen verschiedener Testpersonen sicher
Definition: Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter und Testauswerter misst
3 Aspekte: Durchführungs-, Auswertungs-, Interpretationsobjektivität
Durchführungsobjektivität - Vorliegen, Bedingungen, Optimal
Vorliegen: Wenn das Testergebnis nicht davon abhängt, welcher Testleiter den Test durchführt
Bedingung: Standardisierung der Durchführungsbedingungen durch die Testautoren im Testmanual
Optimal: Wenn die Merkmalsausprägung der Testperson die einzige Variationsquelle in der Testsituation darstellt
Auswertungsobjektivität - Vorliegen, Bedingung, Messung, statistische Kennzahl
Vorliegen: Wenn bei vorliegendem Testprotokoll (Antworten der Testperson auf die Items) das Testergebnis nicht von der Person des Auswerters abhängt
Bedingung: Ggf. detaillierte Auswertungsregeln
Messung: Grad der Übereinstimmung verschiedener Auswerter bei der Auswertung einer bestimmten Testleistung
statistische Kennzahl: Konkordanzkoeffizient W (Kendall, 1962)
Interpretationsobjektivität - Vorliegen, Bedingung
Vorliegen: Wenn verschiedene Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen
Bedingung: Angabe von Ergebnissen aus Eichstichprobe (Normtabellen), um VGL der Testperson mit relevanten Bezugsgruppen zu ermöglichen
Reliabilität - Definition, Reliabilitätskoeffizient, Varianzanteile, Verfahren, Einschränkung
Definition: Ein Test ist reliabel (zuverlässig), wenn er das Merkmal, das er misst exakt, d.h. ohne Messfehler, misst
Reliabilitätskoeffizient (Rel): Wert zwischen 0 und 1 (0<=Rel<=1)
- 1 bezeichnet das Freisein von Messfehlern -> Test führt an derselben Person immer zum gleichen Ergebnis
- 0 zeigt, dass das Testergebnis ausschließlich aus Messfehler besteht
- Test sollte Wert von 0.7 nicht unterschreiten
Varianzanteile:
- Reliabilität ist Anteil der wahren Varianz an der Gesamtvarianz der Testwerte, die Merkmalsstreuung der wahren Testwerte
- Unreliabilität ist restlicher Anteil an Gesamtvarianz der Messwerte, die Messfehlerbehaftetheit eines Messinstruments
Bestimmungsverfahren: Retest-Reliabilität, Paralleltest-Reliabilität, Testhalbierungs-Reliabilität, Innere Konsistenz
Einschränkung: Nur für Tests, die nach der KTT konstruiert wurden! Bei Tests nach der Item-Response-Theory andere Genauigkeitsbeurteilung der Testwerte möglich
Retest-Relabilität - Durchführung, Annahme, Zeitintervall
Durchführung: Derselbe Test wird zu zwei verschiedenen Zeitpunkten vorgelegt, Reliabilität ist Korrelation der Ergebnisse
Annahme: Merkmal selbst hat sich nicht verändert
Zeitintervall: Korrelation kann sich durch Ürbungs/Erinnerungseffekte verändern, oder durch Veränderung des Merkmals selbst (Identifizierung als Spezifität mittels Latent-State-Trait-Modelle möglich)
Paralleltest-Reliabilität - Königsweg, Berechnung, parallele Testformen
Königsweg: kann etliche reliabilitätsverändernde Einflüsse kontrollieren (Übungs/Lerneffekte, Merkmalsveränderungen)
Berechnung: Korrelation zwischen Testwerten in zwei parallelen Testformen, die aus inhaltlich möglichst ähnlichen Items (Itemzwillingen) bestehen
Parallele Tests: Führen trotz nicht identischer Itemstichproben zu gleichen wahren Werten und Varianzen der Testwerte
Testhalbierungs-Reliabilität - Berechnung, Korrekturfaktor
Berechnung: Test in zwei möglichst parallele Hälften teilen, Korrelation dieser Hälften berechnen
Korrekturfaktor: Wird brücksichtigt, um die verminderte Split-Half-Reliabilität wieder auf die ursprüngliche Testlänge hochzurechnen
Innere Konsistenz
- Jedes Item wird als eigenständiger Testteil betrachtet
- Je stärker diese untereinander korrelieren, desto höher ist die interne Konsistenz (Cronbach-a-Koeffizient; Cronbach, 1951)
Validität - Definition, Zusammenhänge, Interpretation, Anwendung, Aspekte
Definition: Test ist valide (gültig), wenn er das Merkmal, das er messen soll, wirklich misst und kein aderes
Zusammenhänge: wichtigstes Gütekriterium, Objektivität und Reliabilität sind nur günstige Voraussetzungen, ABER ohne hohe Reliabilität keine hohe Validität
Interpretation: Validität eines Tests ist Korrelation der Testwerte in der Testsituation mit einem korrespondierenden Verhalten außerhalb der Testsituation (Kriterium)
Anwendung: Validität ist das Ausmaß, in dem Angemessenheit und Güte von Interpretation und Maßnahmen auf Basis der Testwerte durch Empirie belegt werden
Validitätsaspekte: Inhalts-, Augenschein-, Konstrukt-, Kirteriumsvalidität
Inhaltsvalidität - Definition, Bestimmung, Items
Definition: Inwieweit ein Test oder ein Item das zu messende Merkmal repräsentativ erfassen
Bestimmung: Aufgrund logischer Überlegungen, Expertenurteile - NICHT numerisch
Items: Sollten unmittelbaren Ausschnitt aus Verhaltensbereich darstellen, über den Aussage getroffen werden soll
Augenscheinvalidität - Definition, Bedeutung
Definition: Gibt an, inwieweit der Validitätsanspruch eines Tests, vom bloßen Augenschein her einem Laien gerechtfertigt erscheint
Bedeutung: wichtig für Mittelbarkeit der Ergebnisse, Akzeptanz durch Testpersonen, ABER wissenschaftlich nicht zufriedenstellend
Konstruktvalidität - Definition, Beurteilung, konvergente und diskriminante Validität
Definition: Wenn der Rückschluss vom Verhalten der Testperson in der Testsituation auf zugrunde liegende psychologische Persönlichkeitsmerkmale (Konstrukte, latente Variablen, Traits) wissenschaftlich fundiert ist, Überprüfung durch theoretische Annahmen und Modelle
Beurteilung Konstruktvalidität: struktursuchende (EFA) und strukturüberprüfende Ansätze (CFA, nur bei Testmodellen mit latenten Variablen (?), Multitrait-Multimethod-Analysen)
Konvergente und diskriminante Validität:
- Formulierung von theoriegeleiteten Hypothesen über Zusammenhänge des vorliegenden mit konstruktverwandten oder -fremden Tests
- Vorliegender Test wird empirisch (Berechnung Korrelationen) mit den anderen Tests auf Un/Ähnlichkeit verglichen
- Entstehung eines nomologischen Netzwerkes
Kriteriumsvalidität - Definition, BSP, Übereinstimmungsvalidität, Vorhersagevalidität
Definition: Wenn vom Verhalten der Testperson innerhalb der Testsituation erfolgreich auf ein Kriterium (Verhalten außerhalb der Testsituation) geschlossen werden kann. Enge dieser Beziehung ist das Ausmaß an Kriteriumsvalidität (Korrelationsschluss).
Z.B.: Kind ist im Schulreifetest gut und ist auch in der Schule leistungsfähig
Übereinstimmungsvalidität/konkurrente Validität: Zusammenhang Testwert und zeitgleich existierendes Kriterium
Vorhersagevalidität: Zusammenhang Testwert und zukünftige Ausprägung eines Merkmals
Skalierung - Definition, Forderung, Skalenniveau, KTT/IRT
Definition: Wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelationen adäquat abbilden
Forderung: dass leistungsfähigere Personen einen besseren Testwert als weniger leistungsfähige erhalten (inter/intraindividuelle Differenzen)
Skalenniveau: Test braucht mindestens Ordinalskalenniveau, Intervallskalenniveau erlaubt beurteilung der Größe inter/intraindividueller Differenzen
KTT: Beurteilung Skalierung anhand des errechneten Testwerts
IRT: Skalierung daran prüfbar, ob Verhalten aller Testpersonen einem bestimmten mathematischen Modell folgt
Normierung (Eichung) - Definition, Eichstichprobe, Normwerte, Normtabellen
Definition: Das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im VGL zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können
Eichstichprobe:
- Untersuchung möglichst großer, für GG repräsentativer Stichprobe
- Um möglichst aussagekräftige Vergleichswerte von solchen Personen zu erhalten, die der Testperson hinsichtlich relevanter Merkmale (Alter, Geschelcht) ähnlich sind
Normtabellen: Dokumentation der Ergebnisse der Testeichung, an denen dann die Ergebnisse untersuchter Testpersonen normorientiert beurteilt werden
Normwerte: Prozentränge der Testwerte der Eichstichprobe
- Beurteilung des aktuellen Testergebnisses dann durch Prozentsatz der Personen, die in der Eichstichprobe unter bzw über dem Wert lagen
- Standardwerte (nur bei Normalverteilung): Differenz des individuellen Testwertes xi vom Mittel x der Eichstichprobe, in Standardabweichungen (z=xi-x/SD) (oder T-/IQ-/Centil-Werte usw.)
Testökonomie - Definition
Definition: Test ist ökonomisch, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig finanzielle und zeitliche Ressourcen beansprucht
Z.B. durch adaptives Testen
Nützlichkeit - Definition, praktische Relevanz
Definition: Test ist nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen/Maßnahmen mehr Nutzen als Schaden erwarten lassen
Praktische Relevanz: Wenn Test ein Merkmal misst, das im Sinne der Kriteriumsvalidität nützliche Anwendungsmöglichkeiten aufweist
Zumutbarkeit - Definition
Definition: Test ist zumutbar, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Peron in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet
- betrifft Testperson und nicht Testleiter (Ökonomie)
- unterschiedlich in Hinisicht auf Zweck des Tests (VGL Einstellungstest Pilot oder Sekretär)
Unverfälschbarkeit - Definition, Verzerrungen, objektive Tests
Definition: Test ist so konstruiert, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw verzerren kann
Verzerrungen: Begünstigt durch Durchschaubarkeit des Messprinzips (besonders Persönlichkeitstests!), hohe Augenscheinvalidität -> sozialer Erwünschtheit
Objektive Tests: undurchschaubare Tests
Fairness - Definition, Unfairness durch Itembias, Durchführungsfairness, Testroutine
Definition: Test ist fair, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen
Unfairness durch Itembias: Wenn Aufgaben systematisch für verschiedene Personengruppen unterschiedlich schwierig sind (z.B. Feinmotorikprüfung durch Stricken für Jungen schwerer)
Durchführungsfairness: z.B. Fähigkeiten bzgl. Computern bei älteren, jüngeren Menschen beachten
Testroutine: betrifft Testerfahrung, Vertrautheit mit Testsituation
Was ist ein Test? 2 Voraussetzungen
Ein wissenschaftliches Routineverfahren zur Erfassung eines/mehrerer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung
- theoretische Vorstellung über zu messende Merkmale
- erfüllung bestimmter Qualitätstandards
Grundlegender Aufbau eines Tests - Antwortformat, Itemscore, Skala, Summenscore
- Unterscheidung Antwortformat (MC, offen usw) und Itemscore (1=richtig, 0=falsch; Invertierung beachten)
Skala: Besteht aus allen Items, deren Itemscores sich zu einem Summenscore auf der Skala addieren
Subskalen: Bestehen aus bestimmten Items des Tests, deren Itemscores sich zu Summenscores der Subskalen addieren
Womit beschäftigt sich eine Testtheorie? - IRT und KTT
IRT: Zusammenhang zwischen Testverhalten und zu erfassendem psychischen Merkmal
Latente Variable=Persönlichkeitsmerkmal -> Manifeste Variablen: Item A,B,C (mit Antwortskalen)
KTT: Bestandteile von Messwerten
Beobachteter Wert=Wahrer Wert+Messfehler
Klassische Testtheorie (KTT) - Grundannahme, Inhalt KTT
Messwert = wahre Merkmalsausprägung + zufälliger Messfehler
KTT beinhaltet: Die notwendigen Überlegungen, um aus mehreren Messungen xi bei einem Probanden v in bestimmten Items i auf die wahre Ausprägung Tv von Pb v im erfassten Merkmal schließen zu können
KTT - 1. Existenzaxiom
Der True Score Tvi existiert als Erwartungswert der Messungen xvi eines Pbv in Itemi
Tvi= E(xvi)
Erwartungswert = Mittlerer Wert des Probanden, wenn man das Experiment unendlich oft wiederholt
KTT - 2. Verknüpfungsaxiom
Jede Messung xvi setzt sich zusammen aus einem wahren Wert Tvi und einem zufälligen Messfehler Evi
Xvi = Tvi+Evi
KTT - Verbindung Axiom 1+2
Die Verbindung der ersten beiden Axiome zeigt, dass der Zufallsfehler Evi den Erwartungswert Null hat
E(Evi) = 0
- d.h. im Mittel ist der Messfehler Null, wenn das Experiment unendlich oft durchgeführt wird
KTT - 3.Unabhängigkeitsaxiom
Die Korrelation zwischen den Messfehlern E und den wahren Werten T bei beliebigen Personen und beliebigen Items ist Null
Corr(Tvi,Evi) = 0
KTT - 4. Zusatzannahmen a) und b)
a) Unabhängigkeit der Messfehler zwischen den Items: Die Fehlerwerte zweier Messungen mit beliebigen Items i und j bei derselben Person sind unkorrliert
Corr(Ei,Ej) = 0
b) Unabhängigkeit der Messfehler zwischen Personen: Die Fehlerwerte zweier Messungen mit demselben Item i bei beliebigen Personen v und w sind unkorreliert
Corr(Evi,Ewi) = 0
Zusammenfassung: Kennwerte der KTT, Bestimmung des wahren Werts, der Fehlervarianz
- Messung xvi - beobachtbar
- Wahrer Wert Tvi - unbekannt
- Fehlerwert Evi - unbekannt
--> Wahrer Wert und Fehlervarianz müssen geschätzt werden
Bestimmung des wahren Werts:
- Der wahre Testwert Tvi einer Person v kann bei Vorliegen von Messungen mit mehreren Items i = 1,...m aus den beobachteten Messungen xvi geschätzt werden
Bestimmung der Fehlervarianz:
- Die Fehlervarianz Var(E) kann bei Vorliegen von Testwertsummen Xv (Messwertsumme des einzelnen Pbn) mehrerer Personen v = 1,...n bestimmt werden
KTT - Warum entspricht der Testwert xv im Durchschnitt dem wahren Wert Tv?
-Zuerst setzt man für den Rohwert und den Summenwert der einzelnen Itemwerte die Erwartungswerte ein
- Dann stellt man die rechte Seite um
- Dann kann man, aufgrund des 1. Axioms der KTT, für den erwarteten Summenwert der Itemwerte den Summenwert der True Scores der Person v auf den Items i einsetzen
- Dann ist der Erwartungswert des Rohwerts E(xv) gleich dem True Score Tv
- Die Messwertsumme xv kann somit als Punktschätzung ^Tv des wahren Werts Tv einer Person v verwendet werden
xv=^Tv
KTT - Bestimmung des wahren Wertes aus empirischen Daten, Konfidenzintervall
- Ist nur eine Schätzung, die mit Unsicherheit verbunden ist
Bildung eines Konfidenzintervalls um ^Tv:
- Zerlegung der Testwertevarianzen in wahre Varianz und Fehlervarianz
- Berechnung Standardmessfehler
KTT - Bestimmung wahrer Varianz und Fehlervarianz
- Notwendig 4
- Untersuchung der Testwerte über alle Pb ist notwendig!
- Testwertvariable x: Variable der einzelnen Testwerte xv
- True Score Varable T: Variable der einzelnen wahren Werte Tv
- Fehlervariable E: Variable der Messfehler Ev= Xv - Tv
KTT - Bestimmung wahre Varianz und Fehlervarianz: Zerlegung Testwertvariable x und ihrer Varianz
KTT - Was ist wahre Varianz und Fehlervarianz?, Schätzung wahrer Varianz
Wahre varianz: Variation durch unterschiedliche wahre Merkmalsausprägung der Pbn
Fehlervarianz: Variation durch Messfehler der Pb
Schätzung der wahrer Varianz:
- Zur Schätzung von Var(T) und Var(E) zieht man die Testwertevariablen xp und xq zweier Tests p und q heran
- Betrachtet deren Covarianz: Aufgrund der Axiome (3. Unabhängigkeitsaxiom und 4. Zusatzannahmen) entspricht die Kovarianz zweier Tests ihrer wahren Werte
KTT -Schätzung Fehlervarianz (3)
- Sind xp und xq 2 Testwertevariablen von Messungen 2 paralleler Tests oder desselben, so ist
Tp=Tq=T
und Cov (xp,xq) = Cov(Tp,Tq) = Cov (T,T) = Var(T)
- Die wahre Varianz Var(T) kann folglich als Kovarianz der Testwertevariablen zweier paralleler Tests geschätzt werden
- Ist Var(T) bekannt, so kann die Fehlervarianz geschätzt werden:
Var(E) = Var(X) - Var(T)
Reliabilität - Definition, Koeffizient, Grundlage für
Definition: Reliabilität (Rel) bezeichnet die Messgenauigkeit eines Tests und ist als Anteil der Varianz der wahren Werte T an der Varianz der beobachteten Testwerte x definiert
Rel= \( = Var(T) \over Var(x)\) - Reliabilitätskoeffizient: Test ist umso reliabler, je größer der wahre Varianzanteil Var(T) an der Gesamtvarianz Var(x) ist
Wertebereich: 0<=Rel<=1
Grundlage: Für die Berechnung des Standardmessfehlers und der Konfidenzintervalle