Lernkartei Testtheorie und -praxis (Seite 1 von 2)

Karten	57
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	25.04.2017 / 25.11.2023
Weblink	https://card2brain.ch/cards/20170425_testtheorie_und_praxis
Einbinden	<iframe src="https://card2brain.ch/box/20170425_testtheorie_und_praxis/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Testgütekriterien - Was ist ihr Zweck? Wie viele gibt es?

Zweck: Instrument der Qualitätsbeurteilung psychologischer Tests

1. Objektivität

2. Reliabilität

3. Validität

4. Skalierung

5. Normierung (Eichung)

6. Testökonomie

7. Nützlichkeit

8. Zumutbarkeit

9. Unverfälschbarkeit

10. Fairness

Objektivität - Zweck, Definition, 3 Aspekte

Zweck: Stellt die Vergleichbarkeit von Testleistungen verschiedener Testpersonen sicher

Definition: Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter und Testauswerter misst

3 Aspekte: Durchführungs-, Auswertungs-, Interpretationsobjektivität

Durchführungsobjektivität - Vorliegen, Bedingungen, Optimal

Vorliegen: Wenn das Testergebnis nicht davon abhängt, welcher Testleiter den Test durchführt

Bedingung: Standardisierung der Durchführungsbedingungen durch die Testautoren im Testmanual

Optimal: Wenn die Merkmalsausprägung der Testperson die einzige Variationsquelle in der Testsituation darstellt

Auswertungsobjektivität - Vorliegen, Bedingung, Messung, statistische Kennzahl

Vorliegen: Wenn bei vorliegendem Testprotokoll (Antworten der Testperson auf die Items) das Testergebnis nicht von der Person des Auswerters abhängt

Bedingung: Ggf. detaillierte Auswertungsregeln

Messung: Grad der Übereinstimmung verschiedener Auswerter bei der Auswertung einer bestimmten Testleistung

statistische Kennzahl: Konkordanzkoeffizient W (Kendall, 1962)

Interpretationsobjektivität - Vorliegen, Bedingung

Vorliegen: Wenn verschiedene Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen

Bedingung: Angabe von Ergebnissen aus Eichstichprobe (Normtabellen), um VGL der Testperson mit relevanten Bezugsgruppen zu ermöglichen

Reliabilität - Definition, Reliabilitätskoeffizient, Varianzanteile, Verfahren, Einschränkung

Definition: Ein Test ist reliabel (zuverlässig), wenn er das Merkmal, das er misst exakt, d.h. ohne Messfehler, misst

Reliabilitätskoeffizient (Rel): Wert zwischen 0 und 1 (0<=Rel<=1)

- 1 bezeichnet das Freisein von Messfehlern -> Test führt an derselben Person immer zum gleichen Ergebnis

- 0 zeigt, dass das Testergebnis ausschließlich aus Messfehler besteht

- Test sollte Wert von 0.7 nicht unterschreiten

Varianzanteile:

- Reliabilität ist Anteil der wahren Varianz an der Gesamtvarianz der Testwerte, die Merkmalsstreuung der wahren Testwerte

- Unreliabilität ist restlicher Anteil an Gesamtvarianz der Messwerte, die Messfehlerbehaftetheit eines Messinstruments

Bestimmungsverfahren: Retest-Reliabilität, Paralleltest-Reliabilität, Testhalbierungs-Reliabilität, Innere Konsistenz

Einschränkung: Nur für Tests, die nach der KTT konstruiert wurden! Bei Tests nach der Item-Response-Theory andere Genauigkeitsbeurteilung der Testwerte möglich

Retest-Relabilität - Durchführung, Annahme, Zeitintervall

Durchführung: Derselbe Test wird zu zwei verschiedenen Zeitpunkten vorgelegt, Reliabilität ist Korrelation der Ergebnisse

Annahme: Merkmal selbst hat sich nicht verändert

Zeitintervall: Korrelation kann sich durch Ürbungs/Erinnerungseffekte verändern, oder durch Veränderung des Merkmals selbst (Identifizierung als Spezifität mittels Latent-State-Trait-Modelle möglich)

Paralleltest-Reliabilität - Königsweg, Berechnung, parallele Testformen

Königsweg: kann etliche reliabilitätsverändernde Einflüsse kontrollieren (Übungs/Lerneffekte, Merkmalsveränderungen)

Berechnung: Korrelation zwischen Testwerten in zwei parallelen Testformen, die aus inhaltlich möglichst ähnlichen Items (Itemzwillingen) bestehen

Parallele Tests: Führen trotz nicht identischer Itemstichproben zu gleichen wahren Werten und Varianzen der Testwerte

Testhalbierungs-Reliabilität - Berechnung, Korrekturfaktor

Berechnung: Test in zwei möglichst parallele Hälften teilen, Korrelation dieser Hälften berechnen

Korrekturfaktor: Wird brücksichtigt, um die verminderte Split-Half-Reliabilität wieder auf die ursprüngliche Testlänge hochzurechnen

Innere Konsistenz

- Jedes Item wird als eigenständiger Testteil betrachtet

- Je stärker diese untereinander korrelieren, desto höher ist die interne Konsistenz (Cronbach-a-Koeffizient; Cronbach, 1951)

Validität - Definition, Zusammenhänge, Interpretation, Anwendung, Aspekte

Definition: Test ist valide (gültig), wenn er das Merkmal, das er messen soll, wirklich misst und kein aderes

Zusammenhänge: wichtigstes Gütekriterium, Objektivität und Reliabilität sind nur günstige Voraussetzungen, ABER ohne hohe Reliabilität keine hohe Validität

Interpretation: Validität eines Tests ist Korrelation der Testwerte in der Testsituation mit einem korrespondierenden Verhalten außerhalb der Testsituation (Kriterium)

Anwendung: Validität ist das Ausmaß, in dem Angemessenheit und Güte von Interpretation und Maßnahmen auf Basis der Testwerte durch Empirie belegt werden

Validitätsaspekte: Inhalts-, Augenschein-, Konstrukt-, Kirteriumsvalidität

Inhaltsvalidität - Definition, Bestimmung, Items

Definition: Inwieweit ein Test oder ein Item das zu messende Merkmal repräsentativ erfassen

Bestimmung: Aufgrund logischer Überlegungen, Expertenurteile - NICHT numerisch

Items: Sollten unmittelbaren Ausschnitt aus Verhaltensbereich darstellen, über den Aussage getroffen werden soll

Augenscheinvalidität - Definition, Bedeutung

Definition: Gibt an, inwieweit der Validitätsanspruch eines Tests, vom bloßen Augenschein her einem Laien gerechtfertigt erscheint

Bedeutung: wichtig für Mittelbarkeit der Ergebnisse, Akzeptanz durch Testpersonen, ABER wissenschaftlich nicht zufriedenstellend

Konstruktvalidität - Definition, Beurteilung, konvergente und diskriminante Validität

Definition: Wenn der Rückschluss vom Verhalten der Testperson in der Testsituation auf zugrunde liegende psychologische Persönlichkeitsmerkmale (Konstrukte, latente Variablen, Traits) wissenschaftlich fundiert ist, Überprüfung durch theoretische Annahmen und Modelle

Beurteilung Konstruktvalidität: struktursuchende (EFA) und strukturüberprüfende Ansätze (CFA, nur bei Testmodellen mit latenten Variablen (?), Multitrait-Multimethod-Analysen)

Konvergente und diskriminante Validität:

- Formulierung von theoriegeleiteten Hypothesen über Zusammenhänge des vorliegenden mit konstruktverwandten oder -fremden Tests

- Vorliegender Test wird empirisch (Berechnung Korrelationen) mit den anderen Tests auf Un/Ähnlichkeit verglichen

- Entstehung eines nomologischen Netzwerkes

Kriteriumsvalidität - Definition, BSP, Übereinstimmungsvalidität, Vorhersagevalidität

Definition: Wenn vom Verhalten der Testperson innerhalb der Testsituation erfolgreich auf ein Kriterium (Verhalten außerhalb der Testsituation) geschlossen werden kann. Enge dieser Beziehung ist das Ausmaß an Kriteriumsvalidität (Korrelationsschluss).

Z.B.: Kind ist im Schulreifetest gut und ist auch in der Schule leistungsfähig

Übereinstimmungsvalidität/konkurrente Validität: Zusammenhang Testwert und zeitgleich existierendes Kriterium

Vorhersagevalidität: Zusammenhang Testwert und zukünftige Ausprägung eines Merkmals

Skalierung - Definition, Forderung, Skalenniveau, KTT/IRT

Definition: Wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelationen adäquat abbilden

Forderung: dass leistungsfähigere Personen einen besseren Testwert als weniger leistungsfähige erhalten (inter/intraindividuelle Differenzen)

Skalenniveau: Test braucht mindestens Ordinalskalenniveau, Intervallskalenniveau erlaubt beurteilung der Größe inter/intraindividueller Differenzen

KTT: Beurteilung Skalierung anhand des errechneten Testwerts

IRT: Skalierung daran prüfbar, ob Verhalten aller Testpersonen einem bestimmten mathematischen Modell folgt

Normierung (Eichung) - Definition, Eichstichprobe, Normwerte, Normtabellen

Definition: Das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im VGL zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können

Eichstichprobe:

- Untersuchung möglichst großer, für GG repräsentativer Stichprobe

- Um möglichst aussagekräftige Vergleichswerte von solchen Personen zu erhalten, die der Testperson hinsichtlich relevanter Merkmale (Alter, Geschelcht) ähnlich sind

Normtabellen: Dokumentation der Ergebnisse der Testeichung, an denen dann die Ergebnisse untersuchter Testpersonen normorientiert beurteilt werden

Normwerte: Prozentränge der Testwerte der Eichstichprobe

- Beurteilung des aktuellen Testergebnisses dann durch Prozentsatz der Personen, die in der Eichstichprobe unter bzw über dem Wert lagen

- Standardwerte (nur bei Normalverteilung): Differenz des individuellen Testwertes xi vom Mittel x der Eichstichprobe, in Standardabweichungen (z=xi-x/SD) (oder T-/IQ-/Centil-Werte usw.)

Testökonomie - Definition

Definition: Test ist ökonomisch, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig finanzielle und zeitliche Ressourcen beansprucht

Z.B. durch adaptives Testen

Nützlichkeit - Definition, praktische Relevanz

Definition: Test ist nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen/Maßnahmen mehr Nutzen als Schaden erwarten lassen

Praktische Relevanz: Wenn Test ein Merkmal misst, das im Sinne der Kriteriumsvalidität nützliche Anwendungsmöglichkeiten aufweist

Zumutbarkeit - Definition

Definition: Test ist zumutbar, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Peron in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet

- betrifft Testperson und nicht Testleiter (Ökonomie)

- unterschiedlich in Hinisicht auf Zweck des Tests (VGL Einstellungstest Pilot oder Sekretär)

Unverfälschbarkeit - Definition, Verzerrungen, objektive Tests

Definition: Test ist so konstruiert, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw verzerren kann

Verzerrungen: Begünstigt durch Durchschaubarkeit des Messprinzips (besonders Persönlichkeitstests!), hohe Augenscheinvalidität -> sozialer Erwünschtheit

Objektive Tests: undurchschaubare Tests

Fairness - Definition, Unfairness durch Itembias, Durchführungsfairness, Testroutine

Definition: Test ist fair, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen

Unfairness durch Itembias: Wenn Aufgaben systematisch für verschiedene Personengruppen unterschiedlich schwierig sind (z.B. Feinmotorikprüfung durch Stricken für Jungen schwerer)

Durchführungsfairness: z.B. Fähigkeiten bzgl. Computern bei älteren, jüngeren Menschen beachten

Testroutine: betrifft Testerfahrung, Vertrautheit mit Testsituation

Was ist ein Test? 2 Voraussetzungen

Ein wissenschaftliches Routineverfahren zur Erfassung eines/mehrerer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung

- theoretische Vorstellung über zu messende Merkmale

- erfüllung bestimmter Qualitätstandards

Grundlegender Aufbau eines Tests - Antwortformat, Itemscore, Skala, Summenscore

- Unterscheidung Antwortformat (MC, offen usw) und Itemscore (1=richtig, 0=falsch; Invertierung beachten)

Skala: Besteht aus allen Items, deren Itemscores sich zu einem Summenscore auf der Skala addieren

Subskalen: Bestehen aus bestimmten Items des Tests, deren Itemscores sich zu Summenscores der Subskalen addieren

Womit beschäftigt sich eine Testtheorie? - IRT und KTT

IRT: Zusammenhang zwischen Testverhalten und zu erfassendem psychischen Merkmal

Latente Variable=Persönlichkeitsmerkmal -> Manifeste Variablen: Item A,B,C (mit Antwortskalen)

KTT: Bestandteile von Messwerten

Beobachteter Wert=Wahrer Wert+Messfehler

Klassische Testtheorie (KTT) - Grundannahme, Inhalt KTT

Messwert = wahre Merkmalsausprägung + zufälliger Messfehler

KTT beinhaltet: Die notwendigen Überlegungen, um aus mehreren Messungen xi bei einem Probanden v in bestimmten Items i auf die wahre Ausprägung Tv von Pb v im erfassten Merkmal schließen zu können

KTT - 1. Existenzaxiom

Der True Score Tvi existiert als Erwartungswert der Messungen xvi eines Pbv in Itemi

Tvi= E(xvi)

Erwartungswert = Mittlerer Wert des Probanden, wenn man das Experiment unendlich oft wiederholt

KTT - 2. Verknüpfungsaxiom

Jede Messung xvi setzt sich zusammen aus einem wahren Wert Tvi und einem zufälligen Messfehler Evi

Xvi = Tvi+Evi

KTT - Verbindung Axiom 1+2

Die Verbindung der ersten beiden Axiome zeigt, dass der Zufallsfehler Evi den Erwartungswert Null hat

E(Evi) = 0

- d.h. im Mittel ist der Messfehler Null, wenn das Experiment unendlich oft durchgeführt wird

KTT - 3.Unabhängigkeitsaxiom

Die Korrelation zwischen den Messfehlern E und den wahren Werten T bei beliebigen Personen und beliebigen Items ist Null

Corr(Tvi,Evi) = 0

KTT - 4. Zusatzannahmen a) und b)

a) Unabhängigkeit der Messfehler zwischen den Items: Die Fehlerwerte zweier Messungen mit beliebigen Items i und j bei derselben Person sind unkorrliert

Corr(Ei,Ej) = 0

b) Unabhängigkeit der Messfehler zwischen Personen: Die Fehlerwerte zweier Messungen mit demselben Item i bei beliebigen Personen v und w sind unkorreliert

Corr(Evi,Ewi) = 0

Zusammenfassung: Kennwerte der KTT, Bestimmung des wahren Werts, der Fehlervarianz

- Messung xvi - beobachtbar

- Wahrer Wert Tvi - unbekannt

- Fehlerwert Evi - unbekannt

--> Wahrer Wert und Fehlervarianz müssen geschätzt werden

Bestimmung des wahren Werts:

- Der wahre Testwert Tvi einer Person v kann bei Vorliegen von Messungen mit mehreren Items i = 1,...m aus den beobachteten Messungen xvi geschätzt werden

Bestimmung der Fehlervarianz:

- Die Fehlervarianz Var(E) kann bei Vorliegen von Testwertsummen Xv (Messwertsumme des einzelnen Pbn) mehrerer Personen v = 1,...n bestimmt werden

KTT - Testwertsumme Xv des einzelnen Probanden

- Auch Testwert/Rohwert des Pb: entspricht dem Summenwert Xv der einzelnen Itemwerte xvi des Pbn

Xvi = \(\sum \limits_{i=1}^m xvi\)

KTT - Warum entspricht der Testwert xv im Durchschnitt dem wahren Wert Tv?

-Zuerst setzt man für den Rohwert und den Summenwert der einzelnen Itemwerte die Erwartungswerte ein

- Dann stellt man die rechte Seite um

- Dann kann man, aufgrund des 1. Axioms der KTT, für den erwarteten Summenwert der Itemwerte den Summenwert der True Scores der Person v auf den Items i einsetzen

- Dann ist der Erwartungswert des Rohwerts E(xv) gleich dem True Score Tv

- Die Messwertsumme xv kann somit als Punktschätzung ^Tv des wahren Werts Tv einer Person v verwendet werden

xv=^Tv

KTT - Bestimmung des wahren Wertes aus empirischen Daten, Konfidenzintervall

- Ist nur eine Schätzung, die mit Unsicherheit verbunden ist

Bildung eines Konfidenzintervalls um ^Tv:

- Zerlegung der Testwertevarianzen in wahre Varianz und Fehlervarianz

- Berechnung Standardmessfehler

KTT - Bestimmung wahrer Varianz und Fehlervarianz

- Notwendig 4

- Untersuchung der Testwerte über alle Pb ist notwendig!

- Testwertvariable x: Variable der einzelnen Testwerte xv

- True Score Varable T: Variable der einzelnen wahren Werte Tv

- Fehlervariable E: Variable der Messfehler Ev= Xv - Tv

KTT - Bestimmung wahre Varianz und Fehlervarianz: Zerlegung Testwertvariable x und ihrer Varianz

Zerlegung Testwertvariable: x = T + E

Zerlegung Varianz der Testwertvariable Var(x): Testwertevarianz setzt sich aus wahrer Varianz Var(T) und der Fehlervarianz (E) zusammen, denn der True Score und der Messfehler korrelieren zu Null (3. Unabhängigkeitsaxiom)

KTT - Was ist wahre Varianz und Fehlervarianz?, Schätzung wahrer Varianz

Wahre varianz: Variation durch unterschiedliche wahre Merkmalsausprägung der Pbn

Fehlervarianz: Variation durch Messfehler der Pb

Schätzung der wahrer Varianz:

- Zur Schätzung von Var(T) und Var(E) zieht man die Testwertevariablen xp und xq zweier Tests p und q heran

- Betrachtet deren Covarianz: Aufgrund der Axiome (3. Unabhängigkeitsaxiom und 4. Zusatzannahmen) entspricht die Kovarianz zweier Tests ihrer wahren Werte

KTT -Schätzung Fehlervarianz (3)

- Sind xp und xq 2 Testwertevariablen von Messungen 2 paralleler Tests oder desselben, so ist

Tp=Tq=T

und Cov (xp,xq) = Cov(Tp,Tq) = Cov (T,T) = Var(T)

- Die wahre Varianz Var(T) kann folglich als Kovarianz der Testwertevariablen zweier paralleler Tests geschätzt werden

- Ist Var(T) bekannt, so kann die Fehlervarianz geschätzt werden:

Var(E) = Var(X) - Var(T)

Reliabilität - Definition, Koeffizient, Grundlage für

Definition: Reliabilität (Rel) bezeichnet die Messgenauigkeit eines Tests und ist als Anteil der Varianz der wahren Werte T an der Varianz der beobachteten Testwerte x definiert

Rel= \( = Var(T) \over Var(x)\) - Reliabilitätskoeffizient: Test ist umso reliabler, je größer der wahre Varianzanteil Var(T) an der Gesamtvarianz Var(x) ist

Wertebereich: 0<=Rel<=1

Grundlage: Für die Berechnung des Standardmessfehlers und der Konfidenzintervalle

Testtheorie und -praxis

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google