Cartes mémoires M6a Kurs 03421 Psychologie FernUniversität Hagen

Cartes-fiches	219
Utilisateurs	64
Langue	Deutsch
Catégorie	Psychologie
Niveau	Université
Crée / Actualisé	14.01.2015 / 27.02.2025
Lien de web	https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen
Intégrer	<iframe src="https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Vorgehensweise bei der FA

Untersuchung der Kovarianz- bzw. Korrelationsmatrix eines Satzes beobachtbarer Variablen:
- Extraktion einer kleineren Anzahl latenter Variablen (Faktoren), die sich aus gewichteter Summe der beobachteten Variablen zusammensetzt → diese vorläufigen Faktoren werden dann im geometrischen Raum gedreht (rotiert)
Rotation:
- Information des ursprünglichen Datensatzes soll möglichst gut wiedergegeben werden
- Faktoren sollen möglichst eindeutig interpretierbar sein
- aus entstandenen endgültigen Faktoren können VPn Messwerte (Faktorwerte) zugewiesen werden, die Ausprägung auf latenten Merkmalen beschreiben

Schritte der FA im Überblick

Prüfung der Voraussetzung einer EFA
Auswahl der faktorenanalytischen Methode und damit Festlegung der Methode der sog. Kommunalitätenschätzung und der Faktorenextraktion
Festlegung der Anzahl der extrahierten Faktoren
Festlegung der Methode der Rotation und deren Durchführung
Inhaltliche Interpretation der Faktoren
Festlegung der Methode zur Ermittlung der Faktorwerte und ggf. Faktorenanalyse höherer Ordnung

Gütekriterien

klassische psychometrische Gütekriterien:
- Reliabilität
- Validität
weitere allgemeine Gütekriterien:
- Ökonomie
- Fairness
- Unverfälschbarkeit
Gütekriterien zur Beurteilung der Einzelfalldiagnostik:
- Normierung
- Messgenauigkeit

Richtlinien und Beurteilungssysteme von Tests

Unterscheidungen:

nationale / internationale Standards
Spezifikation des Anwendungsbereichs (z.B. Berufseignungsdiagnostik)
Aussagen über Gütekriterien
Prozesse bei Anwendung und Interpretation
geforderte Qualifikation der Anwender
berufsethisches Verhalten

Richtlinien im engeren Sinne:

richten sich unmittelbar an Testentwickler und Anwender
keine konkreten Bewertungshinweise

Beurteilungssysteme:

geben in erster Linie Rezensenten psychologischer Tests Hinweise zu einheit-lich wertender Beurteilung der Verfahren

internationale Standards

USA (drei Organisationen):
- „Standards“ = Standards for Educational and Psychological Testing (AERA):
  - Testentwicklung (v. a. allgemeine Gütekriterien)
  - Fairness (v. a. Minderheitenschutz)
  - Testanwendung (Verhalten der Anwender und einzelne Anwendungsfelder)
- Buros-System:
  - Beurteilungssystem
Niederlande:
- COTAN-System:
  - Beurteilungssystem
länderübergreifend: International Test Commission (ITC):
- z. B. International Guidelines on Computerbased and Internet Delivered Testing:
  - Datenschutz und technische Voraussetzungen
Deutschland:
- BDP:
  - Berufsordnung für Psychologen:
    - berufsethische Anforderungen für Testanwender
- DIN 33430:
  - Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen
  - auch für Nicht-Psychologen
  - geht weit über Feld der Berufseignungsdiagnostik heraus
  - ist in Entwicklung des deutschsprachigen Testbeurteilungssystems des Testkuratoriums (TBS-TK) eingeflossen
  - beeinflusst Bemühen um einheitliche internationale Norm zur psychologischen Diagnostik
  - spezifiziert Qualitätsstandards, nach denen eignungsdiagnosti-sche Entscheidungen getroffen werden können (informative Aussagen) oder sollen (normative Aussagen)
  - Aussagen betreffen
    - Qualitätskriterien für Tests und andere diagnostische Verfahren (Zertifizierung von Tests nach DIN 33430 ist nicht möglich)
    - Kompetenzen der beteiligten Personen:
      - hauptverantwortliche Auftragnehmer
      - Mitwirkende

Richtlinien mit Schwerpunkt Qualität

siehe Grafik

Richtlinien mit Schwerpunkt Berufsethik, Verhalten

siehe Grafik

Beurteilungssysteme

siehe Grafik

Psychometrische Gütekriterin

Objektivität lässt sich als Teilaspekt der Reliabilität subsumieren
Validität ist die Königin unter den Gütekriterien
Test, der keine validen Schlüsse zulässt, ist wertlos, und zwar unabhängig von der Ausprägung sämtlicher anderer Gütekriterien
Abhängigkeitsverhältnis zwischen drei psychometrischen Gütekriterien:
- mangelnde Objektivität vermindert Reliabilität, indem sie Messfehler mögliche Quellen hinzufügt
- mangelnde Reliabilität vermindert Validität um rechnerisch bestimmbaren Betrag

Objektivität

Testergebnisse kommen unabhängig vom Untersucher zustande → Mangel an Objektivität macht Beitrag des Untersuchers zum Messfehler aus
O. wird selten quantifiziert, obwohl sie quantifizierbar ist → quantitative Maße: Indizes der Interraterreliabilität, die meist als spezifische Schätzung der Reliabilität behandelt werden → daher gilt O. als Teilaspekt der Reliabilität
drei Teilaspekte der Objektivität:

1. Durchführungsobjektivität:

Ausmaß, in dem Testergebnisse frei von Schwankungen zwischen Bedingungen unterschiedlicher Durchführungsgelegenheiten zustande kommen
Untersucher können Durchführungsobjektivität beeinträchtigen, indem sie sich individuell verschieden verhalten, aber auch schon durch ihre bloße Präsenz, indem Testteilnehmer z.B. auf weibliche und männliche Testleiter verschieden reagieren
Einfluss des Verhaltens kann durch Standardisierung minimiert werden:
- z. B. vorformulierte Instruktionen, zeitliche Begrenzung bei Speedtests
- neutrales Verhalten statt Untersucher: Online-Test → keine Kontrolle der sonstigen äußeren Umstände → Ergebnisunterschiede zwischen Präsenz- und Onlinetests minimal

2. Auswertungsobjektivität:

Ausmaß, indem verschiedene Auswerter zu denselben Ergebnissen kommen
empirisch einfach festzustellen
wird bei standardisierten Tests als gegeben angenommen
perfekt auswertungsobjektiv → standardisierte Tests mit geschlossenem Antwortformat und computerisierter Auswertung
problematisch bei offenen Antwortformaten / projektiven Tests

. 3. Interpretationsobjektivität:

Ausmaß der Übereinstimmung in der Interpretation aufgrund gleicher Testergebnisse
kaum quantifizierbar und deshalb nur begrenzt standardisierbar
subjektiver Spielraum durch Anforderungen an andere Gütekriterien (Normierung, Reliabilität, Validität) stark eingeschränkt
im Testmanual sollten klare Hinweise zur inhaltlichen Bedeutung der Skalen stehen und die Bereiche zulässiger und unzulässiger Interpretationen abgegrenzt sein
Gefahr von Fallbeispielen: Übergeneralisierung von Einzelfällen → bei Fehlschlüssen erhöht sich subjektiv die Interpretationssicherheit

Reliabilität

zentrale Rolle in KTT → KTT ist Theorie der unsystematischen Messfehler
- Reliabilität kennzeichnet Ausmaß, in dem Testergebnisse frei von unsystematischen Messfehlern zustande kommt
- technisch: Anteil der Varianz der „wahren Werte“(= der systematischen Variation) an der gesamten Testvarianz
in empirischen Reliabilitätsschätzungen lassen sich intendierte Varianzkomponenten nicht von systematischen Fehlern unterscheiden → tragen gemeinsam zur Erhöhung der gemessenen Reliabilität bei → Reliabilität ist nicht hinreichendes, aber notwendiges Kriterium zur Bestimmung der Güte des Tests
Begriff Zuverlässigkeit (mit der ein Test immer wieder zu den gleichen Resultaten führt) besser als Messgenauigkeit
Arten der Reliabilitätsschätzung:

interne Konsistenz
Retest-Reliabilität
Paralleltestreliabilität
Interrater-Reliabilität
→ in allen Fällen geht es um die Abschätzung des Wertes für rtt (= nicht quadrierte Korrelation eines Tests mit sich selbst)

Schaffung von Messreihen unterschiedlich je Methode
Messungen müssen parallel sein (bzw. in manchen Fällen mindestens schwächere Äquivalenzbedingungen erfüllen)

Interne Kosistenz (Reliabilität)

die miteinander korrelierten Messreihen entstehen, indem ein Test zwar nur einmal erhoben, aber so aufgeteilt wird, dass die Testteile korreliert werden können
Test wird so aufgeteilt, dass Testteile miteinander korreliert werden können
verschiedene Konsistenzkoeffizienten schätzen Ausmaß der Gemeinsamkeiten der Testteile (im Gegensatz zur Spezifität) ab
- setzt konzeptionell voraus, dass Teile sinnvoll als Messung des gleichen Konstrukts angesehen werden können
sollte nicht verwendet werden bei:
- heterogene Tests (z.B. bei vielen external konstruierten Verfahren zur Diagnose/ Prognose komplexer Kriterien)
- Speedtests (weil Items hier oft stark ähneln, dass Befund einer hohen internen Konsistenz triviel ist; außerdem wegen unvollständige Bearbeitung per Definition → nur kleiner Teil der Items zur Berechnung für alle Probanden verfügbar)
- Fehler: Interpretation der inneren Konsistenz als Homogenitätsindex (= Maß der Eindimensionalität)
  - obwohl Anwendung interner Konsistenz Homogenität logisch voraussetzt, ist sie selbst allenfalls ein vager Indikator, aber kein geeignetes Maß der Homogenität, da hohe Konsistenzkoeffizienten auch mit heterogenen Tests vereinbar sind
  - besserer Indikator für Homogenität (aber immer noch nicht hinreichend): mittlere Interitemkorrelation MIC sowie deren Streuung; PTT, CFA
Split-Half-Reliabiliät = Testhalbierungsmethode
Beziehung zwischen Testlänge und Reliabilität
Cronbachs-α-Koeffizient

Split-Half-Reliabilität

= Testhalbierungsmethode
Spezialfall der internen Konsistenz (obwohl oft als eigenständige Methode betrachtet wird und bei SPSS implementiert ist)
einziger Vorteil: einfache Berechnung → im PC-Zeitalter nicht mehr stichhaltig

Beziehung zwischen Testlänge und Reliabilität (interne Konsistenz)

rechnerische Beziehung bei parallelen Tests bzw. Testteilen
Verdopplung der Testlänge durch Hinzufügen eines parallelen Tests gleicher Länge → Varianz des neuen Tests = Summe der Varianzen + zweifacher Kovarianz der beiden alten Tests
weil in neuer Varianzsumme Fehlervarianz der alten Tests je einfach eingeht, wahre Varianz aber je doppelt (als wahrer Anteil der ursprünglichen Varianz und als Kovarianz, die ja bei parallelen Tests als Reliabilität definiert ist), ist neuer Test realiabler als der alte → bei Halbierung umgekehrt → künstliche Verkürzung → Korrelation zwischen Hälften muss aufgewertet werden, um wahren Wert der Reliablilität des gesamten Tests abzuschätzen → Korrekturformel (Spearman-Brown-Formel, siehe Grafik) zur Ermittlung der Reliabilität bei Verlängerung eines Tests um einen parallelen Faktor k

Cronbachs-Alpha (interne Konsistenz)

grundsätzlich lässt sich ein test in so viele Teile aufteilen, wie er Items besitzt → dieses Prinzip liegt dem Standardmaß der internen Konsistenz zugrunde: Cronbach-a-Koeffizient

§ Generalisierung der Testhalbierungsmethode
§ stellt Mittelwert der Konsistenzkoeffizienten über alle denkbaren Auftei-lungen des Tests dar
§ Voraussetzung: essenziell tau-äquivalente Messungen der Items
§ bei kongenerischer Messung (eindimensional, unterschiedliche Faktor-ladungen) à Untergrenze der Reliabilität
§ keine Anwendung bei Mehrdimensionalität
§ kann Reliabilität bei systematischem Messfehler überschätzen
3421 – Grundlagen der Testkonstruktion und Vorlesungen
Seite 72
· S²i = Varianz des Testitems / Testteils
· c = Anzahl der Testitems / Testteile
· S²x = Varianz des Gesamtwerts der Skala
§ Ansteigen von S²x trägt unmittelbar zur Erhöhung der Reliabilität bei
§ S²x = Summe der c Varianzen + 2c Kovarianzen aller Items à steigt also an
· je höher positive Korrelationen zwischen Items ausfallen
· je mehr positiv korrelierte Items zu einer Skala zusammenge-fasst werden
§ bei Zusammenfassung von Items mit negativen Kovarianzen wird Cronbach-α negativ
· ggf. Umkodierung vergessen
· bei einzelnen negativen Kovarianzen besser Guttman-λ2 ver-wenden
§ Variante für dichotome Items: Kuder-Richardson 20 (KR-20)
· in SPSS automatisch, wenn Voreinstellung ALPHA der RELIA-BILITÄTSANALYSE beibehalten wird

Was ist ein adaptiver Test?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

Das ist ein Test, bei dem die Schwierigkeit der Aufgaben dynamisch dem individuellen Leistungsniveau des Testteilnehmers angepasst wird

Was bedeutet AFA?

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

= act frequency approach

Ansatz der Verhaltenshäufigkeiten (Buss & Craik, 1983)
systematisches Verfahren zu Abgrenzung Merkmalbereichs und der Itemgenerierung
Dispositionen werden als kognitive Kategorien aufgefasst, in denen Verhaltensweisen nach der Häufigkeit ihres Auftretens ohne eigentlichen Erklärungswert zusammengefasst werden
um festzustellen, welche Verhaltensweisen beim Vorliegen eines psychologischen Konstrukts besonders häufig auftreten (= prototypische Verhaltensweisen), werden Laien befragt

> S. 40-41 im Studienbrief

Akquieszenz

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

= Antworttendenz

generelle Tendenz zur Zustimmung/ Ablehnung von Aussagen

Antwortformat

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

Unterscheidung der Aufgaben danach, ob die Antworten frei gegeben werden können (offenes Format) oder ob mehrere Wahlmöglichkeiten bestehen (gebundenes Antwortformat)
weiterere Unterscheidung zwischen:

Aufgaben mit freiem Antwortformat: Kurzaufsatzaufgaben, Ergänzungsaufgaben => eher bei Fähigkeits- und Leistungstests (z. B. Reproduktion von Wissen durch einen Gedächtnistest); Ausnahme bei Persönlichkeitstests: projektive Verfahren
Aufgaben mit gebundenen Antwortformat:

a) Ordnungsaufgaben: Zuordnungsaufgaben, Umordnungsaufgaben

b) Auswahlaufgaben: Dichotome Aufgaben, Mehrfachwahlaufgaben

c) Beurteilungsaufgaben: Analogskalaaufgaben, Ratingskalaaufgaben

Antworttendenzen

Commandes clavier:

= tourner,

= avant/arrière,

= faire défiler

Kernproblem von Ratingskalen
Unterscheidung zwischen:
- Tendenz, bewusst oder unbewusst im Sinne sozialer Normen ("sozial erwünscht") zu antworten
- generelle Tendenz zur Zustimmung/ Ablehnung von Aussagen (Akquieszenz)
- Bevorzugung bestimmter Skalenbereiche wie der Mitte oder den Extremen

Deshalb kann es sinnvoll sein, asymmetrische Abstufungen bei Ratingskalen vorzusehen, um in solchen Bereichen der Skala besser differenzieren zu können, in denen sich die Antworten sonst häufen würden!

"Antworttendenzen (response sets) stellen Verhaltensweisen bei der Test- und Fragebogenbearbeitung dar, die mehr durch die spezifische Form der Datenerhebung als durch die Ausprägung des zu erfassenden Merkmals definiert sind" (Moosbrugger & Kelava, 2012).

Bartlett-Test auf Sphärizität

Keyboard commands:

= turn,

= for-/backward,

= scroll

Signifikanztest zur Prüfung substantieller Korrelationen (eine der Voraussetzungen in der EFA), sollte signifikant werden
hat sich allerdings einigen alternativen Prüfgrößen gegenüber als unterlegen erwiesen

Category Characteristic Curves (CCC)

Keyboard commands:

= turn,

= for-/backward,

= scroll

im dichotomen Rasch-Modell entsprechen die CCC der ICC und ihrer Spiegelung
p(1) ist dabei mit der ICC identisch
p(0) stellt Gegenwahrscheinlichkeit dar: Mit steigender Wahrscheinlichkeit, einem Item zuzustimmen p(1), sinkt die Wahrscheinlichkeit, das Item abzulehnen p(0), und umgekehrt
Schnittpunkt beider Kategorienfunktionen= Schwelle oder Threshold
an diesem Punkt ist bei einer gegebenen Personenfähigkeit die Wahrscheinlichkeit für Zustimmung und Ablehnung gleich hoch und liegt in der Nähe von 0.5
man kann nun das Schwellenkonzept auf mehr als zwei Antwortkategorien übertragen
inhaltliche Voraussetzung dafür ist, dass die Schwellenparameter geordnet sind, d. h. sie dürfen sich nicht überschneiden

CIT

Keyboard commands:

= turn,

= for-/backward,

= scroll

= critical incident technique

Methode der kritischen Ereignisse (Flanagan, 1954) => systematisches Verfahren der Merkmalsabgrenzung und Itemgenerierung
AFA verwandter Ansatz, der aus der AO-Psychologie stammt
im Unterschied zum AFA werden hier aber Experten befragt

cML

Keyboard commands:

= turn,

= for-/backward,

= scroll

= conditional Maximum-Likelihood-Methode

wird verwendet, um im Rasch-Modell die Itemparameter zu schätzen
Vorteil: Itemparameter können ohne Berücksichtigung der Personenparameter geschätzt werden (Moosbrugger-Kevala)
rechnerische Durchführung erfordert Computerunterstützung
Parameter des Modells werden so geschätzt, dass sie für die beobachtete Datenmatix, bestehend aus dem Itemantworten, die höchste Plausibilität (= Likelihood) aufweisen > Welche Modellparameter in der Population sprechen am ehesten dafür, das beobachtete Ergebnis produziert zu haben (Bühner)
kann nur für das 1PL-Modell vorgenommen werden

Distraktor

Keyboard commands:

= turn,

= for-/backward,

= scroll

= falsche Antwortalternative bei Mehrfachwahlaufgaben in einem Leistungstest

Eigentrennschärfe (KTT)

stellt die korrigierte Korrelation einer Aufgabe mit einer Skala dar
inhaltlich drückt Eigentrennschärfe aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, widerspiegelt bzw. wie prototypisch ein Item für diese Skala ist
SPSS : "Item-Skala-Statistiken" > Spalte "Korrigierte Item-Skala-Korrelation"
berechnete "korrigierte Item-Skala-Korrelation" basiert auf Part-Whole-Korrektur

Eigenwert

= gibt an, wie viel von der Varianz aller Items durch einen Faktor erfasst wird

Einfachstruktur

liegt in der EFA vor, wenn jedes Item möglichst hoch auf einem bestimmten Faktor und möglichst niedrig oder gar nicht auf andere Faktoren lädt

Facettentheorie

Methode zur Systematisierung wissenschaftlicher Fragestellungen
stellt Werkzeuge zur Verfügung, um einen Merkmalsbereich vollständig einzugrenzen, in einzelne Teilmerkmale (Facetten) und deren Ausprägungen bzw. Typen zu zergliedern und die Beziehungen zwischen den Facetten darzustellen und anschließend auch empirisch zu skalieren

Faktorladung

entspricht der Korrelation einer Variablen mit dem Faktor im Falle unkorrelierter Faktoren
im Falle korrelierter Faktoren handelt es sich um semipartielle standardisierte Regressionsgewichte
nach Rotation sind die Faktorladungen in der Mustermatrix zu finden > diese ist nur bei orthogonaler Rotation identisch mit der Strukturmatrix

M6a Kurs 03421 Psychologie FernUniversität Hagen

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google