Lernkartei Testtheorie und -praxis

Karten	57
Sprache	Deutsch
Kategorie	Psychologie
Stufe	Universität
Erstellt / Aktualisiert	25.04.2017 / 25.11.2023
Weblink	https://card2brain.ch/box/20170425_testtheorie_und_praxis
Einbinden	<iframe src="https://card2brain.ch/box/20170425_testtheorie_und_praxis/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Reliabilität bei Verdopplung der Testlänge (l) und Verlängerung um den Faktor K (4)

Reliabilität Rel bei verdoppelter Testlänge l:

\(Rel (2l) = {2xRel \over 1+Rel}\)

-> Warum steht unten 1+Rel?

Resultierende Reliabilität eines Tests der Länge l durch Verlängerung um Faktor k kann durch die Spearman-Brown-Formel ausgedrückt werden:

\(Rel (kxl) = {kxRel \over 1+(k-1)xRel}\)

Reliabilität bei Verdopplung der Testlänge (l) und Verlängerung um den Faktor k - Anwendung

Anwendung:

- Um wie viele parallele Tests müsste ein Test verlängert werden, um seine Reliabilität auf eine bestimmten Wert anzuheben?

- Aufwertung von Split-Half-Reliabilitäten zur Schätzung der Gesamttest-Reliabilität

Standardmessfehler für Tv - Voraussetzungen, Berechnung (5)

Voraussetzungen: Reliabilität und Testwertevarianz müssen bekannt sein

Berechnung:

- Testwertevarianz Var(x) kann in Anteile der Reliabilität und sich selbst zerlegt werden

Var(x) = Rel x Var(x) + (1-Rel) x Var(x)

- Dies kann zu wahrer Varianz Var(T) und Fehlervarianz Var(E) umgeformt werden

Var(x) = Var(T) + Var(E)

- Diese Gleichung kann nach Var(E) umgestellt werden:

Var(E) = Var(x) - Rel x Var(x)

Var(E) = Var(x) x (1-Rel) -> Var(E) stellt den unerklärten Varianzanteil der Testwertevarianz Var(x) dar (?)

- Durch Wurzelziehen erhält man den Standardmessfehler: Sozusagen die Standardabweichung der Fehlervarianz

SD(E) = SD(x) x \(\sqrt{1-Rel}\)
- Je höher die Reliabilität, desto kleiner der Standardmessfehler

Konfidenzintervall für Tv - Definition

Das Konfidenzintervall umfasst denjenigen Bereich eines Merkmals, in dem sich 95% bzw 99% aller möglichen wahren Werte Tv befinden, die den Stichprobenwert ^Tv erzeugt haben können

Konfidenzintervall für Tv - Voraussetzung, Berechnung (4)

Voraussetzung: Normalverteilung der Fehler

Berechnung:

- einseitige Testung: ^Tv - z1 - a x SD(E) <= Tv <= ^Tv + z1 - a x SD(E)

- zweiseitige Testung: ^Tv - z1 - a/2 x SD(E) <= T <= ^Tv + z1 - a/2 x SD(E)

- untere Schranke <= Tv(wahrer Wert) <= obere Schranke

- d.h. wahrer Wert -/+ z-Wert aus Tabelle x Standardmessfehler

Konfidenzintervall für Tv - Bedeutung

Bedeutung: Der wahre Wert Tv liegt mit einer Wahrscheinlichkeit von (1-a, also 99%/95%) in diesem Intervall (a=0.05 bzw 0..01)

BSP Konfidenzintervall einer Intelligenzmessung: In einem Intelligenztest mit MWx= 100 und SD(x)= 15 erzielte ein Proband einen Testwert (IQ) von xv= 111. Die Reliabilität (Cronbachs Alpha) des Tests beträgt .94. Der Testanwender möchte wissen, in welchem Bereich der wahre Wert des Probanden mit einer Wahrscheinlichkeit von 95% liegt.

Rel = 0.94 -> SD(E) = 15 x \(\sqrt{1-0.94}\) = 3.67

- Mit SD(E) lässt sich nun ein Konfidenzintervall berechnen, in dem der wahre Wert mit einer Wahrscheinlichkeit von (1-a = 1 - 0.05 = .95 also 95%) liegt

111 - 1.96 x 3.67 <= Tv <= 111 + 1.96 x 3.67

103.8 <= Tv <= 118.2

- Der wahre IQ des Pbn liegt mit 95%iger Whrschk zwischen diesen Werten

BSP Konfidenzintervall einer Messung von Hochbegabung: Der wahre Wert des Probanden liegt mit 95%iger Whrschk zwischen 121.75 und 138.25

- Welchen Testwert müsste der Proband bei Rel = .89 erzielen, um mit statistischer Sicherheit hochbegabt zu sein?

- Welchen Testwert müsste er bei Rel = .96 erzielen?

- Tv kann auch unter 130 liegen -> Es kann nicht mit statistischer Sicherheit gesagt werden, ob es sich um Hochbegabung handelt

- Bei x>= 139 würde die untere Grenze des Konfidenzintervalls (^Tv-2 x SD(E)) keinen IQ unter 130 umfassen

- Bei Rel = .96 reicht ein x>=135, damit die unter Grenze nicht unter 130 fällt

Konfidenzintervall: Was passiert bei Rel = 0? (4)

- Standardmessfehler = Standardabweichung der Testwerte

SD(E) = SD(x)

- Die Breite des Konfidenzintervalls würde sich auf 49.5 vergrößern

2 x z1 - a x SD(x) = 2 x 1,65 x 15 = 49.5

- Je kleiner die Reliabilität, desto breiter wird das Konfidenzintervall

- Da bei sinkender Reliabilität auch die Punktschätzungen ungenau werden, sollten Tests mit Rel < .80 für die Individualdiagnostik nicht verwendet werden

Ausgewählte T-Werte und ihre 95%-Konfidenzintervalle in Abhängigkeit von der Reliabilität des Tests - Klassifizierung in unter- / durchschnittlich/ über-

Grenzen der KTT - Skalierung (2)

- Annahme, dass beobachtete Werte = wahrer Wert + Fehlerwert kann nicht empirisch überprüft werden, da die Größen nicht direkt beobachtbar sind

- Intervallskalenniveau als Voraussetzung kann bei den tatsächlichen vorliegenden Testwerten nicht überprüft werden

Grenzen der KTT - Konstruktvalidität (2)

- Homogenität der Testitems bezüglich des untersuchten Merkmals nicht überprüfbar

- Merkmale können nur operational definiert werden

Grenzen der KTT - Stichprobenabhängigkeit (2)

- Kennwerte der KTT sind stichprobenabhängig (Itemschwierigkeit, Trennschärfe, Reliabilität etc.)

- Generalisierbarkeit der Ereignisse unklar

Warum sind die meisten Testverfahren nach KTT konstruiert? (2)

- Bewährter Ansatz zur Beurteilung der Reliabilität von Tests und Fragebögen

- Ökonomische und praktische Handhabung

Welche Theorien überwinden die Grenzen der KTT?

Item-Response-Theory (IRT):

- strengere Annahmen

- Beschreibung des Reaktionsverhaltens der Pbn durch Personen- und Itemparameter

- Probalistischer Zusammenhang zwischen Merkmalsausprägungen und beobachteten Messweren

Testgütekriterien - Was ist ihr Zweck? Wie viele gibt es?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Zweck: Instrument der Qualitätsbeurteilung psychologischer Tests

1. Objektivität

2. Reliabilität

3. Validität

4. Skalierung

5. Normierung (Eichung)

6. Testökonomie

7. Nützlichkeit

8. Zumutbarkeit

9. Unverfälschbarkeit

10. Fairness

Objektivität - Zweck, Definition, 3 Aspekte

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Zweck: Stellt die Vergleichbarkeit von Testleistungen verschiedener Testpersonen sicher

Definition: Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter und Testauswerter misst

3 Aspekte: Durchführungs-, Auswertungs-, Interpretationsobjektivität

Durchführungsobjektivität - Vorliegen, Bedingungen, Optimal

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Vorliegen: Wenn das Testergebnis nicht davon abhängt, welcher Testleiter den Test durchführt

Bedingung: Standardisierung der Durchführungsbedingungen durch die Testautoren im Testmanual

Optimal: Wenn die Merkmalsausprägung der Testperson die einzige Variationsquelle in der Testsituation darstellt

Auswertungsobjektivität - Vorliegen, Bedingung, Messung, statistische Kennzahl

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Vorliegen: Wenn bei vorliegendem Testprotokoll (Antworten der Testperson auf die Items) das Testergebnis nicht von der Person des Auswerters abhängt

Bedingung: Ggf. detaillierte Auswertungsregeln

Messung: Grad der Übereinstimmung verschiedener Auswerter bei der Auswertung einer bestimmten Testleistung

statistische Kennzahl: Konkordanzkoeffizient W (Kendall, 1962)

Interpretationsobjektivität - Vorliegen, Bedingung

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Vorliegen: Wenn verschiedene Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen

Bedingung: Angabe von Ergebnissen aus Eichstichprobe (Normtabellen), um VGL der Testperson mit relevanten Bezugsgruppen zu ermöglichen

Reliabilität - Definition, Reliabilitätskoeffizient, Varianzanteile, Verfahren, Einschränkung

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Definition: Ein Test ist reliabel (zuverlässig), wenn er das Merkmal, das er misst exakt, d.h. ohne Messfehler, misst

Reliabilitätskoeffizient (Rel): Wert zwischen 0 und 1 (0<=Rel<=1)

- 1 bezeichnet das Freisein von Messfehlern -> Test führt an derselben Person immer zum gleichen Ergebnis

- 0 zeigt, dass das Testergebnis ausschließlich aus Messfehler besteht

- Test sollte Wert von 0.7 nicht unterschreiten

Varianzanteile:

- Reliabilität ist Anteil der wahren Varianz an der Gesamtvarianz der Testwerte, die Merkmalsstreuung der wahren Testwerte

- Unreliabilität ist restlicher Anteil an Gesamtvarianz der Messwerte, die Messfehlerbehaftetheit eines Messinstruments

Bestimmungsverfahren: Retest-Reliabilität, Paralleltest-Reliabilität, Testhalbierungs-Reliabilität, Innere Konsistenz

Einschränkung: Nur für Tests, die nach der KTT konstruiert wurden! Bei Tests nach der Item-Response-Theory andere Genauigkeitsbeurteilung der Testwerte möglich

Retest-Relabilität - Durchführung, Annahme, Zeitintervall

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Durchführung: Derselbe Test wird zu zwei verschiedenen Zeitpunkten vorgelegt, Reliabilität ist Korrelation der Ergebnisse

Annahme: Merkmal selbst hat sich nicht verändert

Zeitintervall: Korrelation kann sich durch Ürbungs/Erinnerungseffekte verändern, oder durch Veränderung des Merkmals selbst (Identifizierung als Spezifität mittels Latent-State-Trait-Modelle möglich)

Paralleltest-Reliabilität - Königsweg, Berechnung, parallele Testformen

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Königsweg: kann etliche reliabilitätsverändernde Einflüsse kontrollieren (Übungs/Lerneffekte, Merkmalsveränderungen)

Berechnung: Korrelation zwischen Testwerten in zwei parallelen Testformen, die aus inhaltlich möglichst ähnlichen Items (Itemzwillingen) bestehen

Parallele Tests: Führen trotz nicht identischer Itemstichproben zu gleichen wahren Werten und Varianzen der Testwerte

Testhalbierungs-Reliabilität - Berechnung, Korrekturfaktor

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Berechnung: Test in zwei möglichst parallele Hälften teilen, Korrelation dieser Hälften berechnen

Korrekturfaktor: Wird brücksichtigt, um die verminderte Split-Half-Reliabilität wieder auf die ursprüngliche Testlänge hochzurechnen

Innere Konsistenz

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

- Jedes Item wird als eigenständiger Testteil betrachtet

- Je stärker diese untereinander korrelieren, desto höher ist die interne Konsistenz (Cronbach-a-Koeffizient; Cronbach, 1951)

Validität - Definition, Zusammenhänge, Interpretation, Anwendung, Aspekte

Definition: Test ist valide (gültig), wenn er das Merkmal, das er messen soll, wirklich misst und kein aderes

Zusammenhänge: wichtigstes Gütekriterium, Objektivität und Reliabilität sind nur günstige Voraussetzungen, ABER ohne hohe Reliabilität keine hohe Validität

Interpretation: Validität eines Tests ist Korrelation der Testwerte in der Testsituation mit einem korrespondierenden Verhalten außerhalb der Testsituation (Kriterium)

Anwendung: Validität ist das Ausmaß, in dem Angemessenheit und Güte von Interpretation und Maßnahmen auf Basis der Testwerte durch Empirie belegt werden

Validitätsaspekte: Inhalts-, Augenschein-, Konstrukt-, Kirteriumsvalidität

Inhaltsvalidität - Definition, Bestimmung, Items

Definition: Inwieweit ein Test oder ein Item das zu messende Merkmal repräsentativ erfassen

Bestimmung: Aufgrund logischer Überlegungen, Expertenurteile - NICHT numerisch

Items: Sollten unmittelbaren Ausschnitt aus Verhaltensbereich darstellen, über den Aussage getroffen werden soll

Augenscheinvalidität - Definition, Bedeutung

Definition: Gibt an, inwieweit der Validitätsanspruch eines Tests, vom bloßen Augenschein her einem Laien gerechtfertigt erscheint

Bedeutung: wichtig für Mittelbarkeit der Ergebnisse, Akzeptanz durch Testpersonen, ABER wissenschaftlich nicht zufriedenstellend

Konstruktvalidität - Definition, Beurteilung, konvergente und diskriminante Validität

Definition: Wenn der Rückschluss vom Verhalten der Testperson in der Testsituation auf zugrunde liegende psychologische Persönlichkeitsmerkmale (Konstrukte, latente Variablen, Traits) wissenschaftlich fundiert ist, Überprüfung durch theoretische Annahmen und Modelle

Beurteilung Konstruktvalidität: struktursuchende (EFA) und strukturüberprüfende Ansätze (CFA, nur bei Testmodellen mit latenten Variablen (?), Multitrait-Multimethod-Analysen)

Konvergente und diskriminante Validität:

- Formulierung von theoriegeleiteten Hypothesen über Zusammenhänge des vorliegenden mit konstruktverwandten oder -fremden Tests

- Vorliegender Test wird empirisch (Berechnung Korrelationen) mit den anderen Tests auf Un/Ähnlichkeit verglichen

- Entstehung eines nomologischen Netzwerkes

Kriteriumsvalidität - Definition, BSP, Übereinstimmungsvalidität, Vorhersagevalidität

Definition: Wenn vom Verhalten der Testperson innerhalb der Testsituation erfolgreich auf ein Kriterium (Verhalten außerhalb der Testsituation) geschlossen werden kann. Enge dieser Beziehung ist das Ausmaß an Kriteriumsvalidität (Korrelationsschluss).

Z.B.: Kind ist im Schulreifetest gut und ist auch in der Schule leistungsfähig

Übereinstimmungsvalidität/konkurrente Validität: Zusammenhang Testwert und zeitgleich existierendes Kriterium

Vorhersagevalidität: Zusammenhang Testwert und zukünftige Ausprägung eines Merkmals

Testtheorie und -praxis

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google