M6a Kurs 03421 Psychologie FernUniversität Hagen
Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.
Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.
Kartei Details
Karten | 219 |
---|---|
Lernende | 64 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 14.01.2015 / 27.02.2025 |
Weblink |
https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen
|
Einbinden |
<iframe src="https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Homogenität der Items
- damit die latente Variable als „Ursache“ für die Korrelationen zwischen den manifesten Variablen angesehen werden kann, muss Itemhomogenität bzgl. der latenten Variablen vorliegen
- im Raschmodell gilt darum die strenge Annahme, dass sich alle Items ausschließlich hinsichtlich der Schwierigkeit unterscheiden dürfen
- IC-Funktionen (auch ICC = Item-Characteristic-Curve) der Items müssen daher parallel verlaufen und sind entlang der x-Achse verschoben
Summenwerte als erschöpfende Statistik
- gelten Itemhomogenität und lokale stochastische Unabhängigkeit, dann hängt die Fähigkeit einer Person nur davon ab, wie viele Items sie gelöst hat – nicht welche Items
- gleichzeitig ist die Schwierigkeit eines Items nur davon abhängig, von wie vielen Personen es gelöst wurde – nicht von welchen Personen
- Summe der gelösten Items einer Person = erschöpfende Statistik der Personenfähigkeit
- Summe der Personen, die ein Item lösen = erschöpfende Statistik der Itemschwierigkeit
Spezifische Objektivität
- besondere Form der Stichprobenunabhängigkeitbei geltender Homogenität
- Fähigkeitsunterschied zwischen 2 Personen kann immer bestimmt werden – egal welche Items (schwer oder leicht) dem Vergleich zugrunde liegen
- Schwierigkeitsunterschied zwischen 2 Items kann immer bestimmt werden – egal welche Personen (hohe oder niedrige Fähigkeit) dem Vergleich zugrunde liegen
- diese Eigenschaft ermöglicht, Personen unabhängig von den bearbeiteten Items hinsichtlich ihrer Fähigkeit zu vergleichen → adaptives Testen
Zusätzliche Parameter in probabilistischen Modellen
- Trennschärfeparameter / Diskriminationsparameter = Steigung der ICC an ihrem Wendepunkt (p = .5)
- je höher die Trennschärfe eines Items, desto stärker schlagen sich schon kleine Fähigkeitsunterschiede in der Lösungswahrscheinlichkeit nieder
- im Rasch-Modell wird der Trennschärfeparameter für alle Items auf denselben Wert festgelegt
- Rateparameter = bei Mehrfachwahl-Aufgaben beginnt die Lösungswahrscheinlichkeit nicht bei Null sondern z.B. bei .25 (4 Wahlmöglichkeiten)
Vorgehensweise bei der FA
- Untersuchung der Kovarianz- bzw. Korrelationsmatrix eines Satzes beobachtbarer Variablen:
- Extraktion einer kleineren Anzahl latenter Variablen (Faktoren), die sich aus gewichteter Summe der beobachteten Variablen zusammensetzt → diese vorläufigen Faktoren werden dann im geometrischen Raum gedreht (rotiert)
- Rotation:
- Information des ursprünglichen Datensatzes soll möglichst gut wiedergegeben werden
- Faktoren sollen möglichst eindeutig interpretierbar sein
- aus entstandenen endgültigen Faktoren können VPn Messwerte (Faktorwerte) zugewiesen werden, die Ausprägung auf latenten Merkmalen beschreiben
Schritte der FA im Überblick
- Prüfung der Voraussetzung einer EFA
- Auswahl der faktorenanalytischen Methode und damit Festlegung der Methode der sog. Kommunalitätenschätzung und der Faktorenextraktion
- Festlegung der Anzahl der extrahierten Faktoren
- Festlegung der Methode der Rotation und deren Durchführung
- Inhaltliche Interpretation der Faktoren
- Festlegung der Methode zur Ermittlung der Faktorwerte und ggf. Faktorenanalyse höherer Ordnung
Gütekriterien
- klassische psychometrische Gütekriterien:
- Reliabilität
- Validität
- weitere allgemeine Gütekriterien:
- Ökonomie
- Fairness
- Unverfälschbarkeit
- Gütekriterien zur Beurteilung der Einzelfalldiagnostik:
- Normierung
- Messgenauigkeit
Richtlinien und Beurteilungssysteme von Tests
Unterscheidungen:
- nationale / internationale Standards
- Spezifikation des Anwendungsbereichs (z.B. Berufseignungsdiagnostik)
- Aussagen über Gütekriterien
- Prozesse bei Anwendung und Interpretation
- geforderte Qualifikation der Anwender
- berufsethisches Verhalten
Richtlinien im engeren Sinne:
- richten sich unmittelbar an Testentwickler und Anwender
- keine konkreten Bewertungshinweise
Beurteilungssysteme:
- geben in erster Linie Rezensenten psychologischer Tests Hinweise zu einheit-lich wertender Beurteilung der Verfahren
internationale Standards
- USA (drei Organisationen):
- „Standards“ = Standards for Educational and Psychological Testing (AERA):
- Testentwicklung (v. a. allgemeine Gütekriterien)
- Fairness (v. a. Minderheitenschutz)
- Testanwendung (Verhalten der Anwender und einzelne Anwendungsfelder)
- Buros-System:
- Beurteilungssystem
- „Standards“ = Standards for Educational and Psychological Testing (AERA):
- Niederlande:
- COTAN-System:
- Beurteilungssystem
- COTAN-System:
- länderübergreifend: International Test Commission (ITC):
- z. B. International Guidelines on Computerbased and Internet Delivered Testing:
- Datenschutz und technische Voraussetzungen
- z. B. International Guidelines on Computerbased and Internet Delivered Testing:
- Deutschland:
- BDP:
- Berufsordnung für Psychologen:
- berufsethische Anforderungen für Testanwender
- Berufsordnung für Psychologen:
- DIN 33430:
- Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen
- auch für Nicht-Psychologen
- geht weit über Feld der Berufseignungsdiagnostik heraus
- ist in Entwicklung des deutschsprachigen Testbeurteilungssystems des Testkuratoriums (TBS-TK) eingeflossen
- beeinflusst Bemühen um einheitliche internationale Norm zur psychologischen Diagnostik
- spezifiziert Qualitätsstandards, nach denen eignungsdiagnosti-sche Entscheidungen getroffen werden können (informative Aussagen) oder sollen (normative Aussagen)
- Aussagen betreffen
- Qualitätskriterien für Tests und andere diagnostische Verfahren (Zertifizierung von Tests nach DIN 33430 ist nicht möglich)
- Kompetenzen der beteiligten Personen:
- hauptverantwortliche Auftragnehmer
- Mitwirkende
- BDP:
Psychometrische Gütekriterin
- Objektivität lässt sich als Teilaspekt der Reliabilität subsumieren
- Validität ist die Königin unter den Gütekriterien
- Test, der keine validen Schlüsse zulässt, ist wertlos, und zwar unabhängig von der Ausprägung sämtlicher anderer Gütekriterien
- Abhängigkeitsverhältnis zwischen drei psychometrischen Gütekriterien:
- mangelnde Objektivität vermindert Reliabilität, indem sie Messfehler mögliche Quellen hinzufügt
- mangelnde Reliabilität vermindert Validität um rechnerisch bestimmbaren Betrag
Objektivität
- Testergebnisse kommen unabhängig vom Untersucher zustande → Mangel an Objektivität macht Beitrag des Untersuchers zum Messfehler aus
- O. wird selten quantifiziert, obwohl sie quantifizierbar ist → quantitative Maße: Indizes der Interraterreliabilität, die meist als spezifische Schätzung der Reliabilität behandelt werden → daher gilt O. als Teilaspekt der Reliabilität
- drei Teilaspekte der Objektivität:
1. Durchführungsobjektivität:
- Ausmaß, in dem Testergebnisse frei von Schwankungen zwischen Bedingungen unterschiedlicher Durchführungsgelegenheiten zustande kommen
- Untersucher können Durchführungsobjektivität beeinträchtigen, indem sie sich individuell verschieden verhalten, aber auch schon durch ihre bloße Präsenz, indem Testteilnehmer z.B. auf weibliche und männliche Testleiter verschieden reagieren
- Einfluss des Verhaltens kann durch Standardisierung minimiert werden:
- z. B. vorformulierte Instruktionen, zeitliche Begrenzung bei Speedtests
- neutrales Verhalten statt Untersucher: Online-Test → keine Kontrolle der sonstigen äußeren Umstände → Ergebnisunterschiede zwischen Präsenz- und Onlinetests minimal
2. Auswertungsobjektivität:
- Ausmaß, indem verschiedene Auswerter zu denselben Ergebnissen kommen
- empirisch einfach festzustellen
- wird bei standardisierten Tests als gegeben angenommen
- perfekt auswertungsobjektiv → standardisierte Tests mit geschlossenem Antwortformat und computerisierter Auswertung
- problematisch bei offenen Antwortformaten / projektiven Tests
. 3. Interpretationsobjektivität:
- Ausmaß der Übereinstimmung in der Interpretation aufgrund gleicher Testergebnisse
- kaum quantifizierbar und deshalb nur begrenzt standardisierbar
- subjektiver Spielraum durch Anforderungen an andere Gütekriterien (Normierung, Reliabilität, Validität) stark eingeschränkt
- im Testmanual sollten klare Hinweise zur inhaltlichen Bedeutung der Skalen stehen und die Bereiche zulässiger und unzulässiger Interpretationen abgegrenzt sein
- Gefahr von Fallbeispielen: Übergeneralisierung von Einzelfällen → bei Fehlschlüssen erhöht sich subjektiv die Interpretationssicherheit
Reliabilität
- zentrale Rolle in KTT → KTT ist Theorie der unsystematischen Messfehler
- Reliabilität kennzeichnet Ausmaß, in dem Testergebnisse frei von unsystematischen Messfehlern zustande kommt
- technisch: Anteil der Varianz der „wahren Werte“(= der systematischen Variation) an der gesamten Testvarianz
- in empirischen Reliabilitätsschätzungen lassen sich intendierte Varianzkomponenten nicht von systematischen Fehlern unterscheiden → tragen gemeinsam zur Erhöhung der gemessenen Reliabilität bei → Reliabilität ist nicht hinreichendes, aber notwendiges Kriterium zur Bestimmung der Güte des Tests
- Begriff Zuverlässigkeit (mit der ein Test immer wieder zu den gleichen Resultaten führt) besser als Messgenauigkeit
- Arten der Reliabilitätsschätzung:
- interne Konsistenz
- Retest-Reliabilität
- Paralleltestreliabilität
- Interrater-Reliabilität
→ in allen Fällen geht es um die Abschätzung des Wertes für rtt (= nicht quadrierte Korrelation eines Tests mit sich selbst)
- Schaffung von Messreihen unterschiedlich je Methode
- Messungen müssen parallel sein (bzw. in manchen Fällen mindestens schwächere Äquivalenzbedingungen erfüllen)
Interne Kosistenz (Reliabilität)
- die miteinander korrelierten Messreihen entstehen, indem ein Test zwar nur einmal erhoben, aber so aufgeteilt wird, dass die Testteile korreliert werden können
- Test wird so aufgeteilt, dass Testteile miteinander korreliert werden können
- verschiedene Konsistenzkoeffizienten schätzen Ausmaß der Gemeinsamkeiten der Testteile (im Gegensatz zur Spezifität) ab
- setzt konzeptionell voraus, dass Teile sinnvoll als Messung des gleichen Konstrukts angesehen werden können
- sollte nicht verwendet werden bei:
- heterogene Tests (z.B. bei vielen external konstruierten Verfahren zur Diagnose/ Prognose komplexer Kriterien)
- Speedtests (weil Items hier oft stark ähneln, dass Befund einer hohen internen Konsistenz triviel ist; außerdem wegen unvollständige Bearbeitung per Definition → nur kleiner Teil der Items zur Berechnung für alle Probanden verfügbar)
- Fehler: Interpretation der inneren Konsistenz als Homogenitätsindex (= Maß der Eindimensionalität)
- obwohl Anwendung interner Konsistenz Homogenität logisch voraussetzt, ist sie selbst allenfalls ein vager Indikator, aber kein geeignetes Maß der Homogenität, da hohe Konsistenzkoeffizienten auch mit heterogenen Tests vereinbar sind
- besserer Indikator für Homogenität (aber immer noch nicht hinreichend): mittlere Interitemkorrelation MIC sowie deren Streuung; PTT, CFA
- Split-Half-Reliabiliät = Testhalbierungsmethode
- Beziehung zwischen Testlänge und Reliabilität
- Cronbachs-α-Koeffizient
Split-Half-Reliabilität
- = Testhalbierungsmethode
- Spezialfall der internen Konsistenz (obwohl oft als eigenständige Methode betrachtet wird und bei SPSS implementiert ist)
- einziger Vorteil: einfache Berechnung → im PC-Zeitalter nicht mehr stichhaltig
Beziehung zwischen Testlänge und Reliabilität (interne Konsistenz)
- rechnerische Beziehung bei parallelen Tests bzw. Testteilen
- Verdopplung der Testlänge durch Hinzufügen eines parallelen Tests gleicher Länge → Varianz des neuen Tests = Summe der Varianzen + zweifacher Kovarianz der beiden alten Tests
- weil in neuer Varianzsumme Fehlervarianz der alten Tests je einfach eingeht, wahre Varianz aber je doppelt (als wahrer Anteil der ursprünglichen Varianz und als Kovarianz, die ja bei parallelen Tests als Reliabilität definiert ist), ist neuer Test realiabler als der alte → bei Halbierung umgekehrt → künstliche Verkürzung → Korrelation zwischen Hälften muss aufgewertet werden, um wahren Wert der Reliablilität des gesamten Tests abzuschätzen → Korrekturformel (Spearman-Brown-Formel, siehe Grafik) zur Ermittlung der Reliabilität bei Verlängerung eines Tests um einen parallelen Faktor k
Cronbachs-Alpha (interne Konsistenz)
- grundsätzlich lässt sich ein test in so viele Teile aufteilen, wie er Items besitzt → dieses Prinzip liegt dem Standardmaß der internen Konsistenz zugrunde: Cronbach-a-Koeffizient
§ Generalisierung der Testhalbierungsmethode
§ stellt Mittelwert der Konsistenzkoeffizienten über alle denkbaren Auftei-lungen des Tests dar
§ Voraussetzung: essenziell tau-äquivalente Messungen der Items
§ bei kongenerischer Messung (eindimensional, unterschiedliche Faktor-ladungen) à Untergrenze der Reliabilität
§ keine Anwendung bei Mehrdimensionalität
§ kann Reliabilität bei systematischem Messfehler überschätzen
3421 – Grundlagen der Testkonstruktion und Vorlesungen
Seite 72
· S²i = Varianz des Testitems / Testteils
· c = Anzahl der Testitems / Testteile
· S²x = Varianz des Gesamtwerts der Skala
§ Ansteigen von S²x trägt unmittelbar zur Erhöhung der Reliabilität bei
§ S²x = Summe der c Varianzen + 2c Kovarianzen aller Items à steigt also an
· je höher positive Korrelationen zwischen Items ausfallen
· je mehr positiv korrelierte Items zu einer Skala zusammenge-fasst werden
§ bei Zusammenfassung von Items mit negativen Kovarianzen wird Cronbach-α negativ
· ggf. Umkodierung vergessen
· bei einzelnen negativen Kovarianzen besser Guttman-λ2 ver-wenden
§ Variante für dichotome Items: Kuder-Richardson 20 (KR-20)
· in SPSS automatisch, wenn Voreinstellung ALPHA der RELIA-BILITÄTSANALYSE beibehalten wird