M6a Kurs 03421 Psychologie FernUniversität Hagen
Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.
Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.
Kartei Details
Karten | 219 |
---|---|
Lernende | 64 |
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 14.01.2015 / 27.02.2025 |
Weblink |
https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen
|
Einbinden |
<iframe src="https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Vorgehensweise bei der FA
- Untersuchung der Kovarianz- bzw. Korrelationsmatrix eines Satzes beobachtbarer Variablen:
- Extraktion einer kleineren Anzahl latenter Variablen (Faktoren), die sich aus gewichteter Summe der beobachteten Variablen zusammensetzt → diese vorläufigen Faktoren werden dann im geometrischen Raum gedreht (rotiert)
- Rotation:
- Information des ursprünglichen Datensatzes soll möglichst gut wiedergegeben werden
- Faktoren sollen möglichst eindeutig interpretierbar sein
- aus entstandenen endgültigen Faktoren können VPn Messwerte (Faktorwerte) zugewiesen werden, die Ausprägung auf latenten Merkmalen beschreiben
Schritte der FA im Überblick
- Prüfung der Voraussetzung einer EFA
- Auswahl der faktorenanalytischen Methode und damit Festlegung der Methode der sog. Kommunalitätenschätzung und der Faktorenextraktion
- Festlegung der Anzahl der extrahierten Faktoren
- Festlegung der Methode der Rotation und deren Durchführung
- Inhaltliche Interpretation der Faktoren
- Festlegung der Methode zur Ermittlung der Faktorwerte und ggf. Faktorenanalyse höherer Ordnung
Gütekriterien
- klassische psychometrische Gütekriterien:
- Reliabilität
- Validität
- weitere allgemeine Gütekriterien:
- Ökonomie
- Fairness
- Unverfälschbarkeit
- Gütekriterien zur Beurteilung der Einzelfalldiagnostik:
- Normierung
- Messgenauigkeit
Richtlinien und Beurteilungssysteme von Tests
Unterscheidungen:
- nationale / internationale Standards
- Spezifikation des Anwendungsbereichs (z.B. Berufseignungsdiagnostik)
- Aussagen über Gütekriterien
- Prozesse bei Anwendung und Interpretation
- geforderte Qualifikation der Anwender
- berufsethisches Verhalten
Richtlinien im engeren Sinne:
- richten sich unmittelbar an Testentwickler und Anwender
- keine konkreten Bewertungshinweise
Beurteilungssysteme:
- geben in erster Linie Rezensenten psychologischer Tests Hinweise zu einheit-lich wertender Beurteilung der Verfahren
internationale Standards
- USA (drei Organisationen):
- „Standards“ = Standards for Educational and Psychological Testing (AERA):
- Testentwicklung (v. a. allgemeine Gütekriterien)
- Fairness (v. a. Minderheitenschutz)
- Testanwendung (Verhalten der Anwender und einzelne Anwendungsfelder)
- Buros-System:
- Beurteilungssystem
- „Standards“ = Standards for Educational and Psychological Testing (AERA):
- Niederlande:
- COTAN-System:
- Beurteilungssystem
- COTAN-System:
- länderübergreifend: International Test Commission (ITC):
- z. B. International Guidelines on Computerbased and Internet Delivered Testing:
- Datenschutz und technische Voraussetzungen
- z. B. International Guidelines on Computerbased and Internet Delivered Testing:
- Deutschland:
- BDP:
- Berufsordnung für Psychologen:
- berufsethische Anforderungen für Testanwender
- Berufsordnung für Psychologen:
- DIN 33430:
- Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen
- auch für Nicht-Psychologen
- geht weit über Feld der Berufseignungsdiagnostik heraus
- ist in Entwicklung des deutschsprachigen Testbeurteilungssystems des Testkuratoriums (TBS-TK) eingeflossen
- beeinflusst Bemühen um einheitliche internationale Norm zur psychologischen Diagnostik
- spezifiziert Qualitätsstandards, nach denen eignungsdiagnosti-sche Entscheidungen getroffen werden können (informative Aussagen) oder sollen (normative Aussagen)
- Aussagen betreffen
- Qualitätskriterien für Tests und andere diagnostische Verfahren (Zertifizierung von Tests nach DIN 33430 ist nicht möglich)
- Kompetenzen der beteiligten Personen:
- hauptverantwortliche Auftragnehmer
- Mitwirkende
- BDP:
Psychometrische Gütekriterin
- Objektivität lässt sich als Teilaspekt der Reliabilität subsumieren
- Validität ist die Königin unter den Gütekriterien
- Test, der keine validen Schlüsse zulässt, ist wertlos, und zwar unabhängig von der Ausprägung sämtlicher anderer Gütekriterien
- Abhängigkeitsverhältnis zwischen drei psychometrischen Gütekriterien:
- mangelnde Objektivität vermindert Reliabilität, indem sie Messfehler mögliche Quellen hinzufügt
- mangelnde Reliabilität vermindert Validität um rechnerisch bestimmbaren Betrag
Objektivität
- Testergebnisse kommen unabhängig vom Untersucher zustande → Mangel an Objektivität macht Beitrag des Untersuchers zum Messfehler aus
- O. wird selten quantifiziert, obwohl sie quantifizierbar ist → quantitative Maße: Indizes der Interraterreliabilität, die meist als spezifische Schätzung der Reliabilität behandelt werden → daher gilt O. als Teilaspekt der Reliabilität
- drei Teilaspekte der Objektivität:
1. Durchführungsobjektivität:
- Ausmaß, in dem Testergebnisse frei von Schwankungen zwischen Bedingungen unterschiedlicher Durchführungsgelegenheiten zustande kommen
- Untersucher können Durchführungsobjektivität beeinträchtigen, indem sie sich individuell verschieden verhalten, aber auch schon durch ihre bloße Präsenz, indem Testteilnehmer z.B. auf weibliche und männliche Testleiter verschieden reagieren
- Einfluss des Verhaltens kann durch Standardisierung minimiert werden:
- z. B. vorformulierte Instruktionen, zeitliche Begrenzung bei Speedtests
- neutrales Verhalten statt Untersucher: Online-Test → keine Kontrolle der sonstigen äußeren Umstände → Ergebnisunterschiede zwischen Präsenz- und Onlinetests minimal
2. Auswertungsobjektivität:
- Ausmaß, indem verschiedene Auswerter zu denselben Ergebnissen kommen
- empirisch einfach festzustellen
- wird bei standardisierten Tests als gegeben angenommen
- perfekt auswertungsobjektiv → standardisierte Tests mit geschlossenem Antwortformat und computerisierter Auswertung
- problematisch bei offenen Antwortformaten / projektiven Tests
. 3. Interpretationsobjektivität:
- Ausmaß der Übereinstimmung in der Interpretation aufgrund gleicher Testergebnisse
- kaum quantifizierbar und deshalb nur begrenzt standardisierbar
- subjektiver Spielraum durch Anforderungen an andere Gütekriterien (Normierung, Reliabilität, Validität) stark eingeschränkt
- im Testmanual sollten klare Hinweise zur inhaltlichen Bedeutung der Skalen stehen und die Bereiche zulässiger und unzulässiger Interpretationen abgegrenzt sein
- Gefahr von Fallbeispielen: Übergeneralisierung von Einzelfällen → bei Fehlschlüssen erhöht sich subjektiv die Interpretationssicherheit
Reliabilität
- zentrale Rolle in KTT → KTT ist Theorie der unsystematischen Messfehler
- Reliabilität kennzeichnet Ausmaß, in dem Testergebnisse frei von unsystematischen Messfehlern zustande kommt
- technisch: Anteil der Varianz der „wahren Werte“(= der systematischen Variation) an der gesamten Testvarianz
- in empirischen Reliabilitätsschätzungen lassen sich intendierte Varianzkomponenten nicht von systematischen Fehlern unterscheiden → tragen gemeinsam zur Erhöhung der gemessenen Reliabilität bei → Reliabilität ist nicht hinreichendes, aber notwendiges Kriterium zur Bestimmung der Güte des Tests
- Begriff Zuverlässigkeit (mit der ein Test immer wieder zu den gleichen Resultaten führt) besser als Messgenauigkeit
- Arten der Reliabilitätsschätzung:
- interne Konsistenz
- Retest-Reliabilität
- Paralleltestreliabilität
- Interrater-Reliabilität
→ in allen Fällen geht es um die Abschätzung des Wertes für rtt (= nicht quadrierte Korrelation eines Tests mit sich selbst)
- Schaffung von Messreihen unterschiedlich je Methode
- Messungen müssen parallel sein (bzw. in manchen Fällen mindestens schwächere Äquivalenzbedingungen erfüllen)
Interne Kosistenz (Reliabilität)
- die miteinander korrelierten Messreihen entstehen, indem ein Test zwar nur einmal erhoben, aber so aufgeteilt wird, dass die Testteile korreliert werden können
- Test wird so aufgeteilt, dass Testteile miteinander korreliert werden können
- verschiedene Konsistenzkoeffizienten schätzen Ausmaß der Gemeinsamkeiten der Testteile (im Gegensatz zur Spezifität) ab
- setzt konzeptionell voraus, dass Teile sinnvoll als Messung des gleichen Konstrukts angesehen werden können
- sollte nicht verwendet werden bei:
- heterogene Tests (z.B. bei vielen external konstruierten Verfahren zur Diagnose/ Prognose komplexer Kriterien)
- Speedtests (weil Items hier oft stark ähneln, dass Befund einer hohen internen Konsistenz triviel ist; außerdem wegen unvollständige Bearbeitung per Definition → nur kleiner Teil der Items zur Berechnung für alle Probanden verfügbar)
- Fehler: Interpretation der inneren Konsistenz als Homogenitätsindex (= Maß der Eindimensionalität)
- obwohl Anwendung interner Konsistenz Homogenität logisch voraussetzt, ist sie selbst allenfalls ein vager Indikator, aber kein geeignetes Maß der Homogenität, da hohe Konsistenzkoeffizienten auch mit heterogenen Tests vereinbar sind
- besserer Indikator für Homogenität (aber immer noch nicht hinreichend): mittlere Interitemkorrelation MIC sowie deren Streuung; PTT, CFA
- Split-Half-Reliabiliät = Testhalbierungsmethode
- Beziehung zwischen Testlänge und Reliabilität
- Cronbachs-α-Koeffizient
Split-Half-Reliabilität
- = Testhalbierungsmethode
- Spezialfall der internen Konsistenz (obwohl oft als eigenständige Methode betrachtet wird und bei SPSS implementiert ist)
- einziger Vorteil: einfache Berechnung → im PC-Zeitalter nicht mehr stichhaltig
Beziehung zwischen Testlänge und Reliabilität (interne Konsistenz)
- rechnerische Beziehung bei parallelen Tests bzw. Testteilen
- Verdopplung der Testlänge durch Hinzufügen eines parallelen Tests gleicher Länge → Varianz des neuen Tests = Summe der Varianzen + zweifacher Kovarianz der beiden alten Tests
- weil in neuer Varianzsumme Fehlervarianz der alten Tests je einfach eingeht, wahre Varianz aber je doppelt (als wahrer Anteil der ursprünglichen Varianz und als Kovarianz, die ja bei parallelen Tests als Reliabilität definiert ist), ist neuer Test realiabler als der alte → bei Halbierung umgekehrt → künstliche Verkürzung → Korrelation zwischen Hälften muss aufgewertet werden, um wahren Wert der Reliablilität des gesamten Tests abzuschätzen → Korrekturformel (Spearman-Brown-Formel, siehe Grafik) zur Ermittlung der Reliabilität bei Verlängerung eines Tests um einen parallelen Faktor k
Cronbachs-Alpha (interne Konsistenz)
- grundsätzlich lässt sich ein test in so viele Teile aufteilen, wie er Items besitzt → dieses Prinzip liegt dem Standardmaß der internen Konsistenz zugrunde: Cronbach-a-Koeffizient
§ Generalisierung der Testhalbierungsmethode
§ stellt Mittelwert der Konsistenzkoeffizienten über alle denkbaren Auftei-lungen des Tests dar
§ Voraussetzung: essenziell tau-äquivalente Messungen der Items
§ bei kongenerischer Messung (eindimensional, unterschiedliche Faktor-ladungen) à Untergrenze der Reliabilität
§ keine Anwendung bei Mehrdimensionalität
§ kann Reliabilität bei systematischem Messfehler überschätzen
3421 – Grundlagen der Testkonstruktion und Vorlesungen
Seite 72
· S²i = Varianz des Testitems / Testteils
· c = Anzahl der Testitems / Testteile
· S²x = Varianz des Gesamtwerts der Skala
§ Ansteigen von S²x trägt unmittelbar zur Erhöhung der Reliabilität bei
§ S²x = Summe der c Varianzen + 2c Kovarianzen aller Items à steigt also an
· je höher positive Korrelationen zwischen Items ausfallen
· je mehr positiv korrelierte Items zu einer Skala zusammenge-fasst werden
§ bei Zusammenfassung von Items mit negativen Kovarianzen wird Cronbach-α negativ
· ggf. Umkodierung vergessen
· bei einzelnen negativen Kovarianzen besser Guttman-λ2 ver-wenden
§ Variante für dichotome Items: Kuder-Richardson 20 (KR-20)
· in SPSS automatisch, wenn Voreinstellung ALPHA der RELIA-BILITÄTSANALYSE beibehalten wird
Was ist ein adaptiver Test?
Das ist ein Test, bei dem die Schwierigkeit der Aufgaben dynamisch dem individuellen Leistungsniveau des Testteilnehmers angepasst wird
Was bedeutet AFA?
= act frequency approach
- Ansatz der Verhaltenshäufigkeiten (Buss & Craik, 1983)
- systematisches Verfahren zu Abgrenzung Merkmalbereichs und der Itemgenerierung
- Dispositionen werden als kognitive Kategorien aufgefasst, in denen Verhaltensweisen nach der Häufigkeit ihres Auftretens ohne eigentlichen Erklärungswert zusammengefasst werden
- um festzustellen, welche Verhaltensweisen beim Vorliegen eines psychologischen Konstrukts besonders häufig auftreten (= prototypische Verhaltensweisen), werden Laien befragt
> S. 40-41 im Studienbrief
Akquieszenz
= Antworttendenz
- generelle Tendenz zur Zustimmung/ Ablehnung von Aussagen
Antwortformat
- Unterscheidung der Aufgaben danach, ob die Antworten frei gegeben werden können (offenes Format) oder ob mehrere Wahlmöglichkeiten bestehen (gebundenes Antwortformat)
- weiterere Unterscheidung zwischen:
- Aufgaben mit freiem Antwortformat: Kurzaufsatzaufgaben, Ergänzungsaufgaben => eher bei Fähigkeits- und Leistungstests (z. B. Reproduktion von Wissen durch einen Gedächtnistest); Ausnahme bei Persönlichkeitstests: projektive Verfahren
- Aufgaben mit gebundenen Antwortformat:
a) Ordnungsaufgaben: Zuordnungsaufgaben, Umordnungsaufgaben
b) Auswahlaufgaben: Dichotome Aufgaben, Mehrfachwahlaufgaben
c) Beurteilungsaufgaben: Analogskalaaufgaben, Ratingskalaaufgaben
Antworttendenzen
- Kernproblem von Ratingskalen
- Unterscheidung zwischen:
- Tendenz, bewusst oder unbewusst im Sinne sozialer Normen ("sozial erwünscht") zu antworten
- generelle Tendenz zur Zustimmung/ Ablehnung von Aussagen (Akquieszenz)
- Bevorzugung bestimmter Skalenbereiche wie der Mitte oder den Extremen
Deshalb kann es sinnvoll sein, asymmetrische Abstufungen bei Ratingskalen vorzusehen, um in solchen Bereichen der Skala besser differenzieren zu können, in denen sich die Antworten sonst häufen würden!
"Antworttendenzen (response sets) stellen Verhaltensweisen bei der Test- und Fragebogenbearbeitung dar, die mehr durch die spezifische Form der Datenerhebung als durch die Ausprägung des zu erfassenden Merkmals definiert sind" (Moosbrugger & Kelava, 2012).
Bartlett-Test auf Sphärizität
- Signifikanztest zur Prüfung substantieller Korrelationen (eine der Voraussetzungen in der EFA), sollte signifikant werden
- hat sich allerdings einigen alternativen Prüfgrößen gegenüber als unterlegen erwiesen
Category Characteristic Curves (CCC)
- im dichotomen Rasch-Modell entsprechen die CCC der ICC und ihrer Spiegelung
- p(1) ist dabei mit der ICC identisch
- p(0) stellt Gegenwahrscheinlichkeit dar: Mit steigender Wahrscheinlichkeit, einem Item zuzustimmen p(1), sinkt die Wahrscheinlichkeit, das Item abzulehnen p(0), und umgekehrt
- Schnittpunkt beider Kategorienfunktionen= Schwelle oder Threshold
- an diesem Punkt ist bei einer gegebenen Personenfähigkeit die Wahrscheinlichkeit für Zustimmung und Ablehnung gleich hoch und liegt in der Nähe von 0.5
- man kann nun das Schwellenkonzept auf mehr als zwei Antwortkategorien übertragen
- inhaltliche Voraussetzung dafür ist, dass die Schwellenparameter geordnet sind, d. h. sie dürfen sich nicht überschneiden
CIT
= critical incident technique
- Methode der kritischen Ereignisse (Flanagan, 1954) => systematisches Verfahren der Merkmalsabgrenzung und Itemgenerierung
- AFA verwandter Ansatz, der aus der AO-Psychologie stammt
- im Unterschied zum AFA werden hier aber Experten befragt
cML
= conditional Maximum-Likelihood-Methode
- wird verwendet, um im Rasch-Modell die Itemparameter zu schätzen
- Vorteil: Itemparameter können ohne Berücksichtigung der Personenparameter geschätzt werden (Moosbrugger-Kevala)
- rechnerische Durchführung erfordert Computerunterstützung
- Parameter des Modells werden so geschätzt, dass sie für die beobachtete Datenmatix, bestehend aus dem Itemantworten, die höchste Plausibilität (= Likelihood) aufweisen > Welche Modellparameter in der Population sprechen am ehesten dafür, das beobachtete Ergebnis produziert zu haben (Bühner)
- kann nur für das 1PL-Modell vorgenommen werden
Distraktor
= falsche Antwortalternative bei Mehrfachwahlaufgaben in einem Leistungstest
Eigentrennschärfe (KTT)
- stellt die korrigierte Korrelation einer Aufgabe mit einer Skala dar
- inhaltlich drückt Eigentrennschärfe aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, widerspiegelt bzw. wie prototypisch ein Item für diese Skala ist
- SPSS : "Item-Skala-Statistiken" > Spalte "Korrigierte Item-Skala-Korrelation"
- berechnete "korrigierte Item-Skala-Korrelation" basiert auf Part-Whole-Korrektur
Eigenwert
= gibt an, wie viel von der Varianz aller Items durch einen Faktor erfasst wird
Einfachstruktur
- liegt in der EFA vor, wenn jedes Item möglichst hoch auf einem bestimmten Faktor und möglichst niedrig oder gar nicht auf andere Faktoren lädt
Facettentheorie
- Methode zur Systematisierung wissenschaftlicher Fragestellungen
- stellt Werkzeuge zur Verfügung, um einen Merkmalsbereich vollständig einzugrenzen, in einzelne Teilmerkmale (Facetten) und deren Ausprägungen bzw. Typen zu zergliedern und die Beziehungen zwischen den Facetten darzustellen und anschließend auch empirisch zu skalieren
Faktorladung
- entspricht der Korrelation einer Variablen mit dem Faktor im Falle unkorrelierter Faktoren
- im Falle korrelierter Faktoren handelt es sich um semipartielle standardisierte Regressionsgewichte
- nach Rotation sind die Faktorladungen in der Mustermatrix zu finden > diese ist nur bei orthogonaler Rotation identisch mit der Strukturmatrix
-
- 1 / 219
-