M6a Kurs 03421 Psychologie FernUniversität Hagen

Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.

Karteikarten zu den wichtigsten Begriffen aus dem Studienbrief 03421 des Moduls 6a.


Set of flashcards Details

Flashcards 219
Students 64
Language Deutsch
Category Psychology
Level University
Created / Updated 14.01.2015 / 27.02.2025
Weblink
https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen
Embed
<iframe src="https://card2brain.ch/box/m6a_kurs_03421_psychologie_fernuniversitaet_hagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Eigentrennschärfe

  • stellt korrigierte Korrelation = Part-whole-Korrektur einer Aufgabe mit einer Skala dar
  • drückt inhaltlich aus, wie prototypisch Item für Skala ist
  • Annahme, dass die Summe der übrigen Items bzw. gesamte Skala dieses Merkmal valide misst
  • Annahme wird in Validierungsstudien geprüft, die durch Trennschärfeanalyse nicht ersetzt werden

Fremdtrennschärfe

  • Korrelationen von Items mit Skalen oder Testwerten anderer Fragebögen oder mit Kriterien (z. B. Berufserfolg)
  • können insbesondere für externale Skalenkonstruktion herangezogen werden

Trennschärfe

= Korrelation zwischen Item und Skala

  • liegt zwischen -1 und +1

Part-whole-Korrektur

  • vor Berechnung der Trennschärfe mit der Skala
  • Item würde sonst in Skalenwert eingehen > führt zur Überschätzung der Trennschärfe
  • unkorrigierter Wert stellt partielle Eigenkorrelation dar
  • dieses Artefakt umso stärker:
    • je kürzer die Skala ist (anteiliges Gewicht des Items an Skala steigt)
    • je heterogener Skala ist (je geringer Items im Mittel untereinander korrelieren)

> Trennschärfe und Reliabilität bedingen sich teilweise gegenseitig:

  • erwünscht, weil theoretisch zusammengehörige Items untereinander korrelieren sollten
  • aber: sehr hohe Korrelationen können auf Redundanz einzelner Items hindeuten

- negative Trennschärfen:

  • Item korreliert negativ mit Gesamtskala entgegen der erwarteten Richtung > Befund inhaltlich nicht zu rechtfertigen > Ausschluss [Polung kontrollieren!] < vorausgesetzt Item wurde vor der Durchführung der Trennschärfeanalyse korrekt gepolt!!!

- empirische Itemanalyse kann die inhaltliche Beurteilung informieren und ergänzen, aber nicht vollständig ersetzen

Trennschärfe bei Ratingskalen

  • entspricht Produkt-Moment-Korrelation nach Part-Whole-Korrektur
  • Formel siehe Grafik
  • rj(t-1) = Trennschärfekoeffizient der Aufgabe j mit der Skala t, bei der Aufgabe j nicht berücksichtigt ist
  • rjt = Korrelation des Items mit der Skala t
  • Sj = Standardabweichung des Items j
  • St = Standardabweichung der Skala t

Trennschärfe bei dichotomen Merkmalen

  • punktbiseriale Korrelation
  • erfolgt bei SPSS automatisch
  • Formel siehe Grafik
  • rj(t-1) = Trennschärfekoeffizient der Aufgabe j mit der Skala t, bei der Aufgabe j nicht berücksichtigt ist
  • rjt = Korrelation des Items mit der Skala t
  • pj = Schwierigkeitsindex des Items j
  • qj = 1 - pj
  • St = Standardabweichung der Skala t

 

  • Ursachen für verzerrte Trennschärfen und Schwierigkeitskorrektur:
    • wie bei allen Korrelationen Verzerrung nach oben oder unten möglich:
      • Varianz artifiziell erweitert (z. B. Ausreißer, bimodale Verteilungen)
        • Ausreißer selten problematisch
        • bimodale Verteilungen wesentlich häufiger (weil z.B. die Mittelkategorie bei Ratingskalen selten gewählt wird; es kann zu erheblichen Varianzerweiterungen kommen)
          • Nachteil gegen inhaltliche Argumente abzuwägen
      • Varianz eingeschränkt (z. B. Schiefe, extreme Schwierigkeiten) > kommt häufig vor
    • Kontrolle durch Statistik (Schwierigkeitsanalyse) oder visuell (Inspektion der Histogramme)

 

schwierigkeitsproportionale Stichprobenverteilun

= alternatives Verfahren zur Korrektur der Trennschärfen (Moosbrugger und Zistler, 1993)

  • Trennschärfe dichotomer Items wird aufgewertet, indem Selektionskennwert berechnet wird
    • stellt eine Art Korrektur der Trennschärfe um Varianzeinschränkung dar
    • führt zu Selektion von Items, bei der solche mit extremen Schwierigkeiten weniger stark benachteiligt sind als bei Anwendung der unkorrigierten Trennschärfen

Trennschärfeanalyse in SPSS

  • ANALYSIEREN > SKALIERUNG > RELIABILITÄTSANALYSE
    • Verschieben der Items (bei mehreren Dimensionen für jede Dimension einzeln)
    • STATISTIKEN > SKALA WENN ITEM GELÖSCHT + DESKRIPTIVE STATISTIKEN, MITTELWERT, KORRELATIONEN (man erhält: Infos zur mittleren Schwierigkeit der Items sowie deren Bandbreite und zu der mittleren Interkorrelation der Items untereinander, die sich als Indikator für die Itemhomogenität interpretieren lässt)
  • Bsp.: Offenheit (SPSS-Ausgabe zu den 5 Skalen des BFI)
  • Grenze der Eigentrennschärfenanalyse: beschränkt sich auf Korrelation mit
    nur einer Skala > ermöglicht nicht externen Vergleich
  • ANALYSIEREN > KORRELATION > BIVARIAT
    • Prüfung der Korrelation mit anderen Skalen
  • endgültige Selektion von Items aufgrund der Itemanalyse
    • simultane Betrachtung der Indikatoren Itemschwierigkeit und Trennschärfe sowie ggf. Varianz, deskriptive Statistiken, Korrelation mit Außenkriterien
    • Korrelationen (innen, außen) relativ bedeutsamer als univariate Indizes
      • Beibehaltung von Items mit extremen Schwierigkeiten ggf. angemessen bei gleichzeitig hohen Trennschärfen
      • mittlere Schwierigkeit kann unzureichende Trennschärfe keinesfalls kompensieren
    • Trennschärfen nahe oder kleiner Null > messen nicht Zielkonstrukt > entfernen
      • Ausnahme: strikt external konstruierte Skalen, bei denen Zusammenhang mit äußerem Zielkriterium (einschließlich Unterscheidung zwischen Gruppen) überragenden Faktor auch zur Beurteilung einzelner Items darstellt
      • Faustregel: „Behalte Items bei, solange sie positiv zur Erhöhung der Reliabilität beitragen“
      • ist stichprobenabhängig

PTT

  • Betrachtung Rasch-Modell (= wichtigstes Modell in der PTT)
  • Untersuchung, wie Antworten auf Items zustande kommen > Betrachtung von Antwortmustern
  • Grundannahme: in Testsituationen wird Verhaltensausschnitt erfasst (manifeste Variable), der auf bestimmte Verhaltensdisposition (latente Variable) zurückgeht

Grundlagen des Rasch-Modells

  • Voraussage, dass mit steigender Personenfähigkeit Wahrscheinlichkeit einer Itemlösung zunimmt
  • Lösungswahrscheinlichkeit hängt ab von:
    • θ (Theta) Personenparameter: Fähigkeiten oder Eigenschaftsausprägung einer Person
    • σ (Sigma) Itemparameter: Itemschwierigkeit
  • nur diese beiden Parameter an Itemlösung beteiligt
    • Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist probabilistisch
    • Je höher die Personenfähigkeit ausgeprägt ist, desto größer ist die Wahr-scheinlichkeit, ein Item zu lösen
    • Beide Parameter sind also additiv verknüpft (θ–σ)
      • θ = σ p(Person löst Item) = 50%
      • θ > σ p(Person löst Item) > 50%
      • θ < σ p(Person löst Item) < 50%
  •  im Rahmen PTT können Modelltests durchgeführt werden
    • wird Rasch-Modell durch Modelltest nicht abgelehnt, so sagt ungewichteter Summenwert auch wirklich etwas über Ausprägungsgrad auf latenter Variable (Fähigkeits- oder Eigenschaftsausprägung) aus
    • Summenwert ist dann erschöpfende Statistik der Personenfähigkeit
      • hängt also nur davon ab, wie viele Items Person löst, nicht welche
      • Antwortmuster muss also nicht mehr Item für Item betrachtet werden
      • erschöpfende Statistik der Personenfähigkeit = Summe der gelösten Items einer Person
      • erschöpfende Statistik der Itemschwierigkeit = Summe der Personen, die ein Item lösen
    • Test misst eindimensionales Konstrukt = Homogenität
      • Item ist dann guter Indikator, wenn Antwort des Items komplett auf eine einzige Fähigkeits- oder Eigenschaftsausprägung zurückzuführen ist
      • Test ist eindimensional, wenn Rasch-Modell nicht durch Modelltest verworfen wird
      • Eindimensionalität ist formal gegeben, wenn:
        • Korrelation zwischen Items nach Auspartionalisierung der latenten Eigenschaft (d. h. bei deren konstanter Ausprägung) verschwindet (Varianz verschwindet) > lokale Unabhängigkeit
        • noch strenger > lokale stochastische Unabhängigkeit > Lösungswahrscheinlichkeiten zweier beliebiger Items dürfen multipliziert werden, um kombinierte Lösungswahrscheinlichkeit zu ermitteln
      • Items dürfen sich nur durch Schwierigkeit unterscheiden

Spezifische Objektivität (Rasch)

  • ist im Kontext einer psychologischen Messung durch zwei Arten invarianter Vergleiche gekennzeichnet:
  1. Vergleiche zwischen Personen sind invariant über die spezifischen Items und Maße, die verwendet werden
  • Fähigkeit der Person hängt nur davon ab, wie viele Items sie gelöst hat, nicht welche
  • Fähigkeitsunterschied zwischen zwei Personen kann immer bestimmt werden, egal welche Items (schwer oder leicht) dem Vergleich zugrunde liegen

       2. Vergleiche zwischen Items sind invariant über die spezifischen Personen, an denen die Items kalibriert werden

  • Schwierigkeit des Items hängt nur davon ab, von wie vielen Personen es gelöst wurde, nicht von welchen
  • Schwierigkeitsunterschied zwischen zwei Items kann immer bestimmt werden, egal welche Personen (hohe oder niedrige Fähigkeit) dem Vergleich zugrunde liegen

- ermöglicht adaptives Testen

Schätzung der Modellparameter

  • um Personenfähigkeit festzustellen, benötigt man zunächst die Itemparameter
  • mit Hilfe der conditional Maximum Likelihood-Methode (cML) > Schätzung der Modellparamter
  • Itemrohwerte sind nicht intervallskaliert und daher nicht belastbar
  • Personenparameter besitzen Differenzskalenniveau (logaritkmierte Verhältnisskala) und abstrakte Einheit Logit > damit vergleichbar
  • Ort einer Person auf der latenten Variablen wird mit Hilfe eines Personenparameters mit Logit-Einheit geschätzt; die Kenntnis der Itemparameter wird vorausgesetzt
  • Logit-Transformation = Transformation der Rohwerte in die geforderte abstrakte Einheit
    • nicht-linear
    • sichert Differenzskalenniveau von Item- und Personenparameter (somit sind Interpretation von Differenzen zwischen Fähigkeits- oder Eigenschaftsausprägungen möglich)
  • Logit Einheit = Item- und Personenparameter besitzen gleiche Einheit
  • Wertebereich Logit der Personen- und Itemparameter
    • zwischen – und + unendlich
    • meist zwischen -3 und +3 (- = negative Parameter (Werte) > leichte Items oder Personen mit geringerer Fähigkeit; + = vice versa)
  • Verknüpfung von Personen- und Itemparameter: additiv (eigentlich subtraktiv)
    • Lösung eines Problems umso wahrscheinlicher (Wahrscheinlichkeit p), je weiter Fähigkeits- oder Eigenschaftsausprägung Itemschwierigkeit übersteigt: θ – σ
    • Beziehung zwischen Fähigkeitsausprägung und Itemlösungswahrscheinlichkeit ist logistische Funktion
      • Darstellung durch Item-Characteristic Curve (ICC)
        • Y-Achse: Itemlösungswahrscheinlichkeit
        • X-Achse: gemeinsame Einheit Personen- und Itemparameter

Wie sind nun Personen- und Itemparameter verknüpft? > beide besitzen dasselbe Skalenniveau und dieselbe Einheit und können dadurch additiv verknüpft werden

T-Wert-Transformation ist linear und man erhält kein Intervallskalenniveau der Rohwerte

Itemschwierigkeit kann man ermitteln, indem man von der Y-Achse bei 0.5 nach rechts geht bis zur logistischen Funktion für das erste Item und dann von diesem Schnittpunkt ein Lot auf die X-Achse fällt

Schätzung der Modellparameter dichotomes Modell

  • dichotomes Modell hat nur zwei Antwortmöglichkeiten: gelöst / nicht gelöst
    • p(gelöst) = exp(θv− σi) / 1 + exp(θv− σi)
    • p(nicht gelöst) = 1 / 1 + exp(θv− σi)
  • Ermittlung Itemschwierigkeit:
    • von Y-Achse bei 0,5 nach rechts gehen und dann Lot fällen
  • gleiche Einheit sowie additive Verknüpfung ermöglichen kriteriumsorientierte Interpretation der Personenparameter
    • Konsequenz: Rückgriff auf Normstichprobe nicht erforderlich
  • ob Rasch-Modell durch die Daten abgebildet werden muss, wird durch Modelltest festgestellt

Modelltest und Stichprobenunabhängigkeit

  • einfachste Methode, um Eindruck davon zu bekommen, ob Rasch-Modell mit Daten vereinbar ist: Grafischer Modelltest:
    • Streudiagramm
    • Darstellung der geschätzten Itemparameter aus zwei Stichproben
    • Schätzung der Modellparameter sollte unabhängig von Teilstichprobe sein
    • im Idealfall liegen Schätzungen der Itemparameter in beiden Stichproben auf Regressionsgeraden und dies fällt mit Winkelhalbierenden zusammen
    • in Grafik nur annähernd der Fall
  • > auf X- und Y-Achse sind die Logit-Einheiten der Itemparameter für die jeweiligen beiden am Median des Summenwerts geteilten Stichproben aufgetragen
  • > ansteigende Linie = Regressionsgerade der Parameter einer Teilstichprobe auf die andere
  • Nachteil des Grafischen Modelltests: kein Signifikanztest
    • nur Andersen-Likelihood-Quotienten-Test hat sich bewährt > ist teststatistische Umsetzung des grafischen Modelltests
    • kritisch: Pearson-Χ²-Test, Bootstrap-Methode (Simulierung Verteilung der Prüfgrößen unter Geltung des Rasch-Modells)
  • Möglichkeit des relativen Vergleichs (Welches Modell passt am besten?)
    • formal ähnlich wie bei den alternativen Modellvergleichen im Rahmen der konfirmatorischen Faktorenanalyse
    • wird Rasch-Modell nicht abgelehnt, dann treffen folgende Annahmen zu:
      • Lösungswahrscheinlichkeit wird durch logistische Funktion beschrieben
      • Summenwerte sind suffiziente oder erschöpfende Statistiken der Personenfähigkeit
      • Vergleiche zwischen Items und Personen sind spezifisch objektiv
      • Items sind – abgesehen von wenigen Ausnahmen – eindimensional (Forderung
        der lokalen stochastischen Unabhängigkeit ist erfüllt)
    • häufig fünfte Annahme: alle Items besitzen gleiche Trennschärfe
      • Annahme ist nur im dichotomen Rasch-Modell notwendig > Grundvoraussetzung
        für erschöpfende Statistiken
      • für ordinale Rasch-Modelle (mehr als zwei geordnete Antwortalternativen, z.
        B. Likert-Skala) sind gleiche Itemtrennschärfen nicht zwingend, aber geordnete
        Antwortschwellen

Weitere probabilistische Testmodelle für dichotome Daten

  • zusätzliche Parameter, die die Itemlösungswahrscheinlichkeit mitbestimmen; die zwei wichtigsten Einflussgrößen:
    1. Trennschärfe = unterschiedliche Diskriminationsmacht der Items
    2. Rateparameter = Effekte des Ratens
  •  2-Parameter-Modell = Birnbaum-Modell = Erweiterung des Rasch-Modells (1-Parameter-Modell):
    • enthält Trennschärfeparameter βi
    • Formel siehe Grafik
    • p(Xvi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortkategorie x zu wählen
    • θv = Personenparameter für die Person v
    • σi = Itemparameter eines Items i
    • exp = Exponentialfunktion
    • xvi = Wert einer Person v auf dem Item i (im dichotomen Fall: 0 für „falsch gelöst“ und 1 für „richtig gelöst“)
    • βi = Trennschärfeparameter von Item i

Trennschärfe in PTT (S. 87 anschauen im Sb)

  • die Trennschärfe ist anders formalisiert als in der KTT
  • spiegelt Steigung der Itemfunktion wider (ICC):
    • Steigung einer Tangente am Wendepunkt .50 der ICC-Funktion
    • je höher Trennschärfe, desto steiler der Anstieg
  • Wertebereich Trennschärfeparameter: 0 bis + unendlich
    • im dichotomen Rasch-Modell immer 1
  • im 2-Parameter-Modell unterscheiden sich die Trennschärfen einzelner Items > hat gravierende Konsequenzen
  • unterschiedliche Itemtrennschärfen sind für Messvorgang kritisch
    • Itemschwierigkeit = Stelle auf der x-Achse, an der Lösungswahrscheinlichkeit .50 ist
    • lässt sich grafisch ermitteln, indem man von einer Lösungswahrscheinlichkeit von .50 auf der y-Achse eine Linie zu der entsprechenden ICC zieht und dann ein Lot von dem ICC Schnittpunkt auf die x-Achse fällt
  • negative Konsequenzen für die Berechnung der Itemparameter
    • zusätzliche Schätzung > Erhöhung der Anzahl der zu schätzenden Parameter > Schätzgenauigkeit leidet
    • ungewichtete Summenwertbildung nicht mehr zulässig > Gewichtung mit Itemtrennschärfe
      muss vorgenommen werden
    • soll 2-PL-Modell sinnvoll angewandt werden, muss Nachweis erbracht werden,
      dass Test eindimensional ist > Nachweis wird in Praxis selten erbracht
    • im dichotomen Rasch-Modell wird daher Annahme gemacht, dass alle Trennschärfen gleich sind

3-Parameter-Modell

  • berücksichtigt Ratewahrscheinlichkeit γi > man setzt z.B. 0.50 für Ratewahrscheinlichkeit von 50% ein
  • Formel siehe Grafik
    • p(Xvi = x) = Wahrscheinlichkeit einer Person v bei Item i die Antwortkategorie x zu wählen
    • θv = Personenparameter für die Person v
    • σi = Itemparameter eines Items i
    • exp = Exponentialfunktion
    • xvi = Wert einer Person v auf dem Item i (im dichotomen Fall: 0 für „falsch gelöst“ und 1 für „richtig gelöst“)
    • βi = Trennschärfeparameter von Item i
    • γi = Rateparameter des Items i
  • Ratewahrscheinlichkeit bei vier Items = .25
    • Bereich unter .25 kennzeichnet Ratewahrscheinlichkeit (siehe Grafik)
  • Irrtumswahrscheinlichkeit = Person löst trotz hoher Fähigkeit leichtes Item mit konstanter Wahrscheinlichkeit nicht
    • würde in der Grafik der Bereich zwischen .75 und 1 sein
  • Nachteile:
    • Annahmen stark vereinfacht
    • je nach Beschaffenheit der Distraktoren wird Ratewahrscheinlichkeit für jedes Item und bei jeder Person in Abhängigkeit von Personenfähigkeit unterschiedlich ausfallen
    • Anwendung des 3-PL-Modells nicht zu empfehlen

ordinales Rasch-Modell (S. 90 im Sb)

  • probabilistisches Modell für Ratingskalen
  • beschäftigt sich mit Items, die über mehr als zwei geordnete Antwortkategorien verfügen
    • geordnet = Items besitzen Ordinalskalenniveau
  • Kategorieauswahl hängt von Eigenschaftsausprägung der Person und Itemschwierigkeit ab (Personenparameter und Itemparameter)
    • dichotomes Merkmal
      • Grenze zwischen 0 (Nein) und 1 (Ja) = Schwelle = Threshold
      • Wahrscheinlichkeit der Auswahl der Antwortalternativen gleich groß
      • p(0) + p(1) = 1 > Punkt entspricht dem wendepunkt der logistischen Funktion und gleichzeitig auch dem Itemparameter
      • Schnittpunkt der Funktionen p(0) und p(1) kennzeichnet Schwelle
  • eine Schwelle kann noch besser beschrieben werden, wenn weitere Wahrscheinlichkeitsfunktion eingeführt wird > Wahrscheinlichkeitsfunktion p(0) > entspricht Wahrscheinlichkeit, Kategorie "Null" zu wählen und damit der gespiegelten logistischen Funktion, welche die Wahrscheinlichkeit [p(1)] Katergorie "Eins" gewählt wird, ausdrückt > heißt: je wahrscheinlicher Kategorie "Eins" gewählt wird, desto unwahrscheinlicher wird Kategorie "Null" gewählt (und umgekehrt) > dabei addieren sich die Wahrscheinlichkeit Kategorie "Null" und Kategroei "Eins" zu wählen zu 1 auf > Schnittpunkt beider Funktionen, der dem Wendepunkt beider logistischen Funktionen p(0) und p(1) entspricht, kennzeichnet eine Schwelle
  • Übertragung auf mehr als zwei geordnete Antwortkategorien (nicht mehr ICC, sondern CCC = Category Characteristic Curves / Kategoriefunktionen
    • (z. B. 0, 1, 2)
    • zwei Schwellenparameter zwischen p(0) und p(1) sowie p(1) und p(2)
    • Kategorienfunktion p(1) hat ähnliche Form wie Normalverteilung

Partial-Credit-Modell

  • Wahrscheinlichkeit, mit der eine Person eine bestimmte Antwortkategorie wählt
  • Formel siehe Grafik
    • p(Xvi = x) = Wahrscheinlichkeit einer Person v bei Item i die Kategorie x zu wählen
    • x = Anzahl übersprungener Schwellen bis zur gewählten Kategorie x
    • s = Nummer der Schwelle
    • θv = Personenparameter für die Person v
    • σix = Summe der Schwellenparameter eines Items i bis zur gewählten Kategorie x
    • σis = Summe aller Schwellenparameter bis Schwelle s
    • exp = Exponentialfunktion
    • m = Anzahl der Schwellen
  • weitere wichtige Voraussetzung für Rasch-Modell muss erfüllt sein
    • Antwortschwellen müssen geordnet sein, dürfen sich nicht überschneiden

Mixed-Rasch-Modelle (S. 93 im Sb)

  • weitere Modellklasse
  • quantifizieren und klassifizieren gleichzeitig
  • z.B. Lösung eines Tests durch Personen mit unterschiedlichen Fähigkeiten
  • Mixed-Rasch-Modell sucht nach Personengruppen, die sich in ihrem Ant-wortmuster maximal unterscheiden
  • innerhalb einer jeden Klasse gilt wieder Rasch-Modell
  • Mixed-Rasch-Modelle sind nützlich für Testkonstruktion
    • können Verletzung von Eindimensionsannahme für jedes Item anzeigen
    • Items, die zu Zweiklassenlösung führen, werden aus dem Test entfernt

Konstruktionsschritte KTT - PTT im Vergleich

Siehe Grafik

Vor- und Nachteile der PTT

Vorteile:

  • Empirische Überprüfung der Modellannahmen
  • Stichproben“UN“abhängigkeit der Parameter
  • Intervallskalenniveau liegt gesichert vor
  • weitere Vorzüge, wie adaptives Testen

Einwände:

  • sehr komplex und hoher Konstruktionsaufwand
  • Praktisch haben sich Tests nach KTT auch bewährt
  • enge Merkmalsbereiche und seltene Anwendung

Skalenbildung

  • Wahl des Verfahrens hängt vom Ziel ab:
    • EFA = Explorative Faktorenanalyse: keine theoretischen Vorstellungen
    • CFA = Konfirmatorische Faktorenanalyse: mit theoretischen Vorstellungen

Grundlagen der Faktorenanalyse

  • FA ist eine Klasse statistischer Verfahren, die nicht nur zu Untersuchung von Tests und anderen Diagnostika dienen, sonern eine Vielzahl breiter Anwendungsgebiete besitzen
  • Ursprung: theoretische Intelligenzforschung (Spearman, 1904)
  • lässt sich aus allgemeinem linearen Modell ableiten
  • ist mit anderen multivariaten Verfahren rechnerisch verwandt
  • Testanalyse ist nur eines der zentralen Anwendungsgebiete
  • hinsichtlich Vielfalt der methodischen Varianten steht sie auf Stufe der Regressions- oder Varianzanalyse

Faktorenanalyse (FA)

  • = Gruppe statistischer Verfahren, mit denen interne Struktur eines Satzes von Variablen auf deren nicht offen zutage tretende (latente) Zusammenhänge untersucht wird
  • Untersuchung der Korrelationsmuster einer Mehrzahl von gemessenen (manifesten) Variablen, die auf der gleichen logischen und hierarchischen Ebene liegen
  • Ziel: Datenstrukturierung
  • Verallgemeinerung durch Cattell: Unterscheidung zwischen drei Varianzquellen (Variablen, VPn, Situationen) und sechs Arten von Korrelationsmatrizen (hier nur Untersuchung der R-Technik)
  • weitere Variante der EFA: trimodale Faktorenanalyse > simultane Berücksichtigung von drei Varianzquellen
  • latente Variablen = Faktoren
  • untersucht also nicht, wie Regressions- oder Varianzanalyse, Beziehungen zwischen AV und UV

Drei zentrale Zwecke der FA (Thompson, 2004)

Drei zentrale Zwecke der FA:

  1. Prüfung der Gültigkeit (Validität) theoretischer Modellannahmen über Struktur eines vorhandenen Variablensatzes oder Messinstrumentes („faktorielle Validität“)
  2. Entwicklung von Theorien über interne Struktur psychologischer Konstrukte bzw. deren messbare Manifestationen
  3. Datenreduktion bzw. vereinfachende Beschreibung eines Datensatzes durch die Zusammenfassung von Variablen zu (übergeordneten) Faktoren

 

Mit Hilfe der FA kann man versuchen, viele manifeste Variablen (z.B. Items eines Tests) zu wenigen latenten Variablen (den diesen Items zugrunde liegenden Konstrukten) zusammenzufassen > Korrelation von p Variablen über n Vpn

Unterscheidung der FA zur Regressionsanalyse (Boellen und Lennox)

  • Faktorenanalyse (= Effektindikatorenmodell):
    • Untersuchung des simultanen Einflusses jedes Faktors auf mehrere beobachtete Variablen
  • mehrfaktorielle Varianzanalyse, multiple Regression (Regressionsanalyse = Kausalindikatorenmodell):
    • Untersuchung des simultanen Einflusses mehrere unabhängiger Variablen
    • setzt keine theoretischen Modellvorstellungen voraus

EFA vs. CFA

  • langer Versuch, alle drei Ziele mit Hilfe der (historisch älteren) Explorativen Faktorenanalyse (EFA) zu erreichen > führte zu Untersuchungen, in denen die (deduktive) Theorieprüfung von der (induktiven) Theoriebildung nur schwer zu unterscheiden war
  • mit Konfirmatorischer Faktorenanalyse (CFA) eigenständige Gruppe von Verfahren, die sich zur Modellprüfung (dem ersten Zweck) sehr viel besser eignet als die EFA
  • EFA setzt keine theoretischen Modellvorstellungen voraus und eignet sich deshalb dazu, solche Modellvorstellungen im Rahmen eines theoriebildenden Vorgehens zu "entdecken" (Zweck 2) und den vorliegenden Datensatz entsprechend zu vereinfachen (Zweck 3)
  • für induktive Testkonstruktion stellt EFA die zentralen empirischen Informationen zu Verfügung, sie wird jedoch häufig auch zur Exploration der internen Struktur von eher atheoretisch konstruierten externalen Tests eingesetzt
  • EFA ist einfacher zu berechnen/ interpretieren und ist bereits in SPSS impliziert

Schema EFA und CFA (Bollen und Lennox)

  • FA unterstellt, dass die Indikatoren (Items) untereinander kovariieren/ korrelieren > Warum? > wenn z.B. zwei Items eines Tests von demselben Faktor bzw. latenten Konstrukt beeinflusst werden, sollte sich dies auf der beobachtbaren Ebene darin äußern, dass die Items untereinander korreliert sind
  • FA betrachtet die Ausprägungen auf den Items als lineare Funktion dahinter stehender Faktoren > wenn hinter beiden Items verschiedene Konstrukte (Faktoren) stehen, gibt es keinen unmittelbaren Grund für eine Korrelation der Items

Varianten der Explorativen Faktorenanalyse

  •  am häufigsten verwendete Varianten:
    • PAF = Hauptachsenanalyse = principal axis factor analysis
      • Ziel: Aufdeckung latenter Strukturen im Datensatz
    • PAC = Hauptkomponentenanalyse = principal components analysis
      • Ziel: nur für Datenreduktion und -beschreibung (streng genommen also keine faktorenanalytische Methode)
      • Faktoren heißen Komponenten
      • wird häufig angewendet (sie ist in SPSS Voreinstellung)

Allgemeines lineares Modell (ALM)

  •  in der Statistik 2 Gruppen von Tests:
  1. Tests die die Mittelwertsunterschiede zwischen verschiedenen Gruppen miteinander vergleichen (z.B. t-Test, ANOVA)
  2. Tests die Zusammenhänge suchen (z.B. Korrelation, Regression)
  • beim allgemeinen linearen Modell geht man davon aus, dass jede Fragestellung als Zusammenhangsfragestellung betrachtet werden kann, d.h. dass beide Arten von Fragestellungen ineinander überführbar sind
  • bei Zusammenhängen geht es immer darum, wie die verschiedenen Variablen miteinander in Beziehung stehen und somit auch, wie sich die einzelnen Variablen aus anderen Variablen vorhersagen lassen
  • demzufolge stehen alle Variablen irgendwie miteinander in Beziehung bzw. weisen einen linearen Zusammenhang auf
  • das ALM bildet somit eine mathematische Grundlage für Signifikanztest und die Regression stellt eine direkte Ableitung aus diesem Modell dar

Grundgedanke der FA

  • Ausprägung eines Individuums wird auf beobachteten Variablen ursächlich durch dahinter stehende, latente Konstrukte beeinflusst
  • latente Variablen = Faktoren > sind streng zu unterscheiden von den gleichnamigen UVs in der Varianzanalyse > zwar beeinflussen auch in der Varianzanalyse die Faktoren die AV ursächlich (gleiches gilt für die Prädiktoren in der Regressionsanalyse); im mittelpunkt der FA steht aber der simultane Einfluss jedes Faktors auf mehrere beobachtete Variablen, während mehrfaktorielle Varianzanalyse und multiple Regression den simultanen Einfluss mehrerer UVs untersuchen

Schwächen der Klassischen Testtheorie

  • Axiome:
    • Theoretische Festlegungen >nicht überprüfbar!
    • einige sind kontraintuitiv und praktisch nicht haltbar
  • Stichprobenabhängigkeit der Parameter:
    • Berechtigte Zweifel an der Generalisierbarkeit
    • Anwendung auf Einzelfälle nicht ganz zulässig
  • Intervallskalenniveau:
    • Äquidistanzproblem

Axiom

  • theoretische Grundannahmen, die ohne weitere Überprüfung als gegeben angesehen werden bzw. Aussagen, die nicht bewiesen werden, sondern deren Gültigkeit vorausgesetzt wird

PTT

  • Oberbegriff für viele unterschiedliche Modelle
  • Grundannahme: In einer Testsituation wird ein Verhaltensausschnitt erfasst (manifeste Variable), der auf eine bestimmte Verhaltensdisposition (latente Variable) zurückgeht
  • Aussagen über das Auftreten von beobachtbarem Verhalten, können immer nur mit einer bestimmten Wahrscheinlichkeit gemacht werden > probabilistisch
  • selbst wenn ich die Ausprägung des latenten Merkmals exakt kennen würde, wäre keine 100% korrekte Verhaltensvorhersage möglich

Indikatorenkonzept der PTT

siehe Grafik

Lokale stochastische Unabhängigkeit

  • Korrelation der manifesten Variablen untereinander soll nur auf eine einzige latente Variable zurückgeführt werden können
  • lokale stochastische Unabhängigkeit besteht darin, dass die Korrelation zwischen den Items auf einer lokalen Stufe der latenten Dimension verschwindet
  • wie lautet das Äquivalent zur Annahme lokaler stochastischer Unabhängigkeit in der KTT? > Definition unkorrelierter Messfehler (Axiome!)

Grundlagen des Rasch-Modells

  • Lösungswahrscheinlichkeit für ein bestimmtes Item hängt nur von 2 Parametern ab:
  1. Personenfähigkeit oder Eigenschaftsausprägung (Personenparameter) θ(Theta)
  2. Schwierigkeit des Items (Itemparameter) σ(Sigma)
  • je höher die Personenfähigkeit ausgeprägt ist, desto größer ist die Wahrscheinlichkeit, ein Item zu lösen
  • beide Parameter sind also additiv verknüpft (θ–σ) :
    • θ= σ → p(Person löst Item) = 50%
    • θ> σ → p(Person löst Item) > 50%
    • θ< σ → p(Person löst Item) < 50%

Itemcharakteristische Funktion (IC-Funktion)

  • Herzstück des Rasch- Modells
  • durch die IC-Funktion wird festgelegt, wie der Zusammenhang zwischen dem latenten Merkmal (Fähigkeit/ Eigenschaft) und der Lösungswahrscheinlichkeit für ein Item aussehen soll
  • latent     →     manifest
  • im dichotomen Rasch-Modell gibt es nur zwei Antwortalternativen:
    • „1 = gelöst“
    • „0 = nicht gelöst“
  • entsprechend kann die logistische Funktion, die dem Modell zugrunde liegt, zwei Formen annehmen:
    • p (gelöst) = exp(θv− σi) / 1 + exp(θv− σi)
    • p (nicht gelöst) = 1 / 1 + exp(θv− σi)

Annahmen des Rasch-Modells

  • Lösungswahrscheinlichkeit lässt sich durch eine logistische Funktion beschreiben
  • Homogenität / Eindimensionalität (als Bedingung für lokale stochastische Unabhängigkeit)
  • Summenwerte als erschöpfende Statistik
  • spezifische Objektivität (der Vergleiche)

→ alle diese Annahmen sind empirisch prüfbar!