Cartes mémoires EFA (Seite 1 von 1)

Cartes-fiches	36
Langue	Italiano
Catégorie	Agriculture
Niveau	Collège
Crée / Actualisé	15.06.2020 / 15.06.2020
Lien de web	https://card2brain.ch/cards/20200615_efa
Intégrer	<iframe src="https://card2brain.ch/box/20200615_efa/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist das Ziel der EFA?

Wie werden die Faktoren konstruiert? D.h. was sollen die Faktoren gut repräsentieren?

Ziel der explorativen/exploratorischen Faktorenanalyse (EFA) ist die Beschreibung der Zusammenhänge zwischen einer Reihe von beobachteten (manifesten) Variablen mittels einer möglichst kleinen Anzahl an Faktoren (latenten Variablen) --> Datenreduktion

Faktoren werden mathematisch so konstruiert, dass sie die gemeinsame Varianz (Korrelationen zwischen) einer größeren Zahl an (beobachteten) Variablen gut repräsentieren

Die Bedeutung synthetischer Variablen:

„Synthetische“ Variable = Variable, die wechselseitig korrelierten Variablen zugrunde liegt

Partialisiert man den Faktor aus den Variablen heraus, verringern sich die wechselseitigen Korrelationen bedeutsam

Der Faktor „erklärt“ also den wechselseitigen Zusammenhang zwischen Variablen (wobei die inhaltliche Interpretation der Faktoren dem/der ForscherIn --> im rein explorativen Fall

Partialisiert man einen Faktor aus den Variablen heraus, bleibt (meist) Restvarianz übrig

Diese Restvarianz kann wiederum durch einen neuen „synthetischen“ Faktor erklärt werden

Faktorenanalyse ist ein Daten reduzierendes Verfahren Es werden weniger Faktoren als Variablen benötigt, um den wechselseitigen Zusammenhang der Variablen (ausreichend gut) zu erklären

Was bedeutet Faktorwert?

Was bedeutet Faktorladung?

Faktorwerte

Der Faktorwert 𝜉𝑣𝑞 einer Person v kennzeichnet die Position dieser Person auf dem Faktor q
Messwerte der Personen auf den latenten Variablen

Faktorladung

Eine Faktorladung 𝜆𝑖𝑞 entspricht der Korrelation einer Variablen i und einem Faktor q im Falle unkorrelierter Faktoren
Im Falle korrelierter Faktoren handelt es sich bei den Faktorladungen um semipartielle standardisierte Regressionsgewichte

Was ist die Kommunalität?

Die Kommunalität (ℎ2) einer Variablen i gibt an, in welchem Ausmaß die Varianz dieser Variablen durch die Faktoren aufgeklärt wird

d.h. die K. gibt an, wieviel Varianz durch die Faktoren in einem Item erklärt wird

Was ist der Eigenwert eines Faktors?

Er gibt an, wie viel von der Varianz aller Variablen durch diesen Faktor erfasst wird

Welche drei gängigen Methoden der Faktorenanalyse werden unterschieden? Was ist die Besonderheit der PCA?

Hauptkomponentenanayse (PCA)
Hauptachsenanaylse (PAF)
Maximum-Likelihood-Faktorenanalyse

Was ist das Ziel der PCA? Kann man die Daten inhaltlich interpretieren?

Was ist das alleinige Ziel der PCA? Kann man die Daten nach der PCA inhaltlich interpretieren?

Ziel ist die reine Datenreduktion, man kann damit aber keine inhaltlich interpretierbaren latenten Variablen identifizieren, da immer die komplette Varianz (auch die Fehlervarianz) für die Schätzung der Ladungen verwendet wird

Man hat auch nicht das Ziel, das Ergebnis inhaltlich zu erklären, es geht rein um die Datenreduktion

Welche Varianz wird betrachtet

a) bei der Hauptkomponentenanalyse (PCA)?

b) bei der Hauptachsenanalyse und der Maximum-Likelihood-Schätzung?

a) Hauptkomponentenanalyse --> Gesamte Varianz wird verwendet

b) Hauptachsenanalyse und Maximum-Likelihood-Faktorenanalyse

--> Nur gemeinsame (wahre) Varianz wird verwendet

Was ist das Ziel der Faktorenanalyse bzgl. der Abweichung von den beobachteten Werten?

Welche 2 Restriktionen gelten dei der Faktorextraktion?

Ziel: Xsi (Faktorwerte) und Lambda (Faktorladungen) müssen so gewählt sein, dass die vorhergesagten Werte möglichst gering von den beobachteten Werten abweichen

Vorgaben der Extraktion:

Faktoren sind wechselseitig unabhängig voneinander (d.h. unkorreliert)
Faktoren klären sukzessive maximale Varianz auf

Ziel der PCA?

Wie funktioniert die Hauptkomponentenanalyse (=PCA?) Was ist das Ziel? Wie werden die beiden Hauptkomponenten erklärt? (in Bezug auf Varianzaufklärung und Abhängigkeit voneinander?)

Ziel: Ziel: Datenreduktion (keine Modellannahmen, rein deskriptiv), Verwendung der Gesamtvarianz, man hat keine Idee, wie man das Ergebnis inhaltlich erklären kann/soll

Einfachster Fall:

Zwei Variablen z1 und z2 --> Die PCA zerlegt die beiden beobachteten Variablen wie folgt

𝑧1=𝜆11⋅𝜉1+𝜆12⋅𝜉2

𝑧2=𝜆21⋅𝜉1+𝜆22⋅𝜉2

--> man sieht, dass e_i hier fehlt, d.h. die gesamte Varianz wird verwendet. Die beiden Hauptkomponenten werden so bestimmt, dass sie sukzessive maximal Varianz erklären (Ziel der Varianzmaximierung) und unabhängig voneinander sind

Geometrische Veranschaulichung des Extraktionsprinzips bei der PCA:

Ein kleiner Winkel bedeutet? (hohe oder niedrige Korrelation?)

Was bedeutet ein Winkel von 90°?

Kleiner Winkel = hohe Korrelation

90° = Korrelation von 0

Die Summe aller Winkel zu Faktor 1 sollte möglichst gering sein

Die beiden Hauptkomponenten werden so bestimmt, dass sie sukzessive maximal Varianz erklären (Ziel der Varianzmaximierung)

Generell: Die Anzahl extrahierter Hauptkomponenten entspricht der Anzahl an Variablen, die in die Analyse eingehen

Datenreduktion? --> Auswahl der Anzahl an Hauptkomponenten, mit denen die Variablen ohne großen Informationsverlust ersetzt werden können

Wie wird die Hauptachsenanalyse (PAF) durchgeführt?

In welche drei Bestandteile wird die Gesamtvarianz zerlegt?

Welche Varianz wird faktorisiert, d.h. zu Faktoren zusammengefasst?

Bei der Hauptachsenanalyse wird die Gesamtvarianz zerlegt in:

Gemeinsame Varianz: Varianzanteil, den sich die manifesten Variablen teilen
Spezifische Varianz: Spezifische Varianz einer manifesten Variablen, die sie mit keiner anderen Variable teilt
Fehlervarianz: Messfehlereinflüsse

Faktorisiert wird die gemeinsame Varianz, d.h. die gemeinsame Varianz stellt das dar, was die Variablen aufgrund der (unbekannten) zugrundeliegenden latenten Struktur miteinander teilen

Diese gemeinsame Varianz ist unbekannt (genauso wie der Anteil spezifischer Varianz und Fehlervarianz) Kommunalitätenproblem

Was ist das Kommunalitätenproblem? Wie geht man mit diesem um?

Die gemeinsame Varianz ist unbekannt (genauso wie die spezifische und die Fehlervarianz)

Lösung: Schätzung der Kommunalitäten --> iterative Schätzung (Kommunalitäteniteration)

Vorschläge für Startwerte des Iterationsverfahrens:

a) Quadrat der multiplen Korrelation der Variablen mit allen anderen Variablen (SPSS-Voreinstellung)

b) höchste bivariate Korrelation der Variablen mit einer anderen Variablen

Wie funktioniert das Prinzip der PAF (principal axis factor analysis) ?

Prinzip

(1)Durchführung einer Hauptkomponentenanalyse mit den Startwerten

(2)Ersetzen der Startwerte durch die mit der ersten Hauptkomponentenanalyse erhaltenen neuen Kommunalitätenschätzer

(3)Durchführung einer erneuten Hauptkomponentenanalyse

…

Wie funktioniert die Maximum-Likelihood-Schätzung?

Schätzung von Populationsparametern aus Stichprobenstatistiken

Verwendung eines Maximum-Likelihood-Schätzers zur Bestimmung der Ladungen und Fehlervarianzen

Prinzip: Finde Schätzer für die Modellparameter, für die die Differenz zwischen der modellimplizierten Korrelationsmatrix (meist aber Kovarianzmatrix) und der Stichprobenkorrelationsmatrix (bzw. Stichprobenkovarianzmatrix) minimal ist (ausführlicher in Kurs 3444 im Rahmen von Strukturgleichungsmodellen behandelt!)

Wie viele Faktoren sollten extrahiert werden?

In der FA werden q wechselseitig unabhängige Faktoren bestimmt, die sukzessiv maximale Varianz aufklären

Informationsreduktion? Zugrunde liegende gemeinsame Konstrukte?
Extraktion von wenigen Faktoren, die „hinreichend gut“ die wechselseitigen Zusammenhänge zwischen den Variablen aufklären
Es sollten immer, wenn möglich, auch inhaltliche Vorüberlegungen einfließen!
Ansonsten werden bestimmte Kriterien herangezogen, die allerdings zu unterschiedlichen Ergebnissen führen können und unterschiedlich gut geeignet sind

Kriterien für die Faktorextraktion:

Inhaltliche Vorüberlegungen
Eigenwertkriterium größer eins
Scree-Test nach Cattel
Parallelanalyse nach Horn
Minimum-Average-Partial-Test (MAP-Test)

Was bedeutet das Eigenwertkriterium? --> ist ein schlechtes Kriterium, besser sind die anderen Kriterien

Idee: Ein Faktor sollte mehr Varianz aufklären als ein einzelnes Item an Varianz besitzt

Kriterium: Interpretation derjenigen Faktoren, deren Eigenwert größer als 1 ist
Probleme: Extraktion von zu vielen Faktoren (bei großer Anzahl an Variablen)
Eigenwerte stellen nur Populationsschätzer dar --> KI sollten berücksichtigt werden

Scree-Test nach Catell

Idee: Substantielle Faktoren sollten Eigenwerte haben, die sich deutlich von denen der anderen unterscheiden.

Vorgehen: Es wird ein Diagramm („Screeplot“) des Eigenwertverlaufs der Faktoren erstellt und inspiziert
Kriterium: Diejenigen Faktoren extrahieren, die links vor einem „Knick“ im Eigenwertverlauf liegen
Problem: Eigentlich kein „(statistischer) Test“, sondern ein Verfahren der visuellen Inspektion, daher oftmals Subjektivität der Beurteilung.

Vorgehen bei der Parallelanalyse nach Horn:

Vorgehen:
(1)aus einer Population, in der die Variablen unkorreliert sind, wird eine Zufallsstichprobe gezogen (hinsichtlich i und Personenanzahl selber Umfang wie in der tatsächlichen Stichprobe)
(2)die Korrelations-Matrix dieser Stichprobe (alle Zusammenhänge zwischen den Variablen sind nur zufällig) wird einer EFA unterzogen
(3)Der Verlauf der Eigenwerte dieser Analyse („Zufallseigenwerte“) wird in einem Diagramm mit den Eigenwerten der EFA der tatsächlichen Stichprobe abgetragen

Kriterium: Diejenigen Faktoren sind bedeutsam (über Zufallsniveau), deren Eigenwerte über dem Schnittpunkt der beiden Eigenwertverläufe liegen.

Einwand: Warum werden Faktoren, die knapp über der Linie liegen, extrahiert und diejenigen, die knapp unter der Linie liegen, nicht?

Aber: Führt in den meisten Fällen zu einer angemessenen Extraktion, insgesamt zu empfehlen (Fabrigar et al., 1999).

Praktische Durchführung: Die Zufallsdaten können selbst erzeugt werden, dies ist jedoch zunächst noch nicht in SPSS verfügbar, sondern erfordert ein Makro (s. Tutorial)

Wie funktioniert/läuft der MAP-Test (ab)? Minimum-Average-Partial-Test

Minimum-Average-Partial-Test (MAP-Test)
Schritt 1:

Nach Durchführung einer PCA wird die erste Hauptkomponente aus der Korrelationsmatrix herauspartialisiert Residualmatrix
Berechnung der mittleren quadrierten Partialkorrelation --> Mittel aus den quadrierten Korrelationen der Residualmatrix (so heißt, die, die noch verbleibt, quasi der Rest vom Schützenfest)

Schritt 2:

Aus der Residualmatrix wird die zweite Hauptkomponente herauspartialisiert#
Berechnung der mittleren quadrierten Partialkorrelation berechnet

Weitere Schritte:

Wiederholung dieser Schritte bis die mittlere quadrierte Partialkorrelation ein Minimum erreicht --> Extraktion der Anzahl der Komponenten an diesem Minimum (die mittlere quadrierte Partialkorrelation erreicht ein Minimum, steigt dann aber wieder an und alles am Minimum wird extrahiert)

Vorgehen bei der Maxmimum-Likelihood-Faktorenanaylse

Modelltestung unter Verwendung eines Likelihood-Quotienten-Tests (Χ2−Test)

Probleme der Interpretierbarkeit einer "Anfangslösung" (d.h. erstes Ergebnis der PCA oder PAF)

Oftmals sind die Ergebnisse einer Faktorenanalyse, unabhängig von dem verwendeten Verfahren (z.B. PCA oder PAF), inhaltlich nicht interpretierbar

Zum Beispiel ist in Folge der Eigenschaft der Vorgabe, dass die extrahierten Faktoren sukzessiv maximale Varianz erklären, dass viele Variablen hoch auf dem ersten Faktor laden und niedrig(er) auf allen weiteren Faktoren

Aus diesem Grund folgt in der Regel nach Extraktion der Faktoren eine erneute Rotation dieser Faktoren, um die Lösung zu optimieren

warum ist eine Rotation der Anfangslösung zulässig?

Die Anfangslösung stellt eine von (unendlich) vielen möglichen Lösungen dar

Dies liegt daran, dass das Modell nicht identifiziert ist und man bestimmte (und eben unterschiedliche) Festlegungen (Restriktionen) vornehmen muss (Identifikationsproblem)

Eine solche Festlegung ist durch das Kriterium der sukzessiven maximalen Varianzaufklärung (und auch Orthogonalität der Faktoren) vorgenommen worden

Ausgehend von dieser Anfangslösung kann aber nun nach besser interpretierbaren, aber (mathematisch) äquivalenten Lösungen gesucht werden

Welche alternative Lösung ist besser interpretierbar? (nach Roation)

Ziel der Rotation ist eine sog. Einfachstruktur Ladung der Variablen auf den Faktoren ist hoch oder nahezu Null

Diese rotierte Lösung stellt eine mathematisch äquivalente Rotationstransformation dar, die allerdings besser zu interpretieren ist

Zwei generelle Klassen von Rotationstechniken
- Orthogonale Rotationen (Unabhängigkeit der Faktoren wird beibehalten)
- Oblique (schiefwinklige) Rotationen (Korrelationen zwischen den Faktoren werden zugelassen)

Unabhängig von der Rotationsart gilt: Zwar ändern sich die Faktorladungen, die erklärte Gesamtvarianz bleibt jedoch gleich

Beispiel für eine orthogonale Rotation:

hier

Beispiel oblique Rotation:

hier

Arten der orthognalen Rotation:

Transformation der Faktoren, die gewährleistet, dass die Faktoren auch nach der Rotation noch unkorreliert sind

Wenn die Faktoren tatsächlich unkorreliert sind, lässt sich das neue Ladungsmuster gut interpretieren
Verschiedene Rotationstechniken: VariMax, QuartiMax, EquaMax

VariMax-Rotation

Gebräuchlichste orthogonale Rotationstechnik
Hintergrund: das Einfachstrukturkriterium verlangt, dass pro Faktor einige Variablen möglichst hoch u. die anderen möglichst niedrig laden
dies ist mit der Forderung gleichzusetzen, dass die Varianz der quadrierten Faktorladungen pro Faktor möglichst groß ist

Zielkriterium:

die Faktoren werden orthogonal so rotiert, dass die Varianz der quadrierten Faktorladungen pro Faktor maximal ist

Weitere orthogonale Rotationsverfahren

QuartiMax: Summe der vierten Potenzen der Faktorladungen wird maximiert, was einen generellen, dominierenden Faktor eher zulässt

EquaMax: Kombination aus VariMax und QuartiMax.

Prinzip der obliquen Rotation

Oblique (schiefwinklige) Rotation

Transformation, die korrelierte Faktoren zulässt
Dadurch wird oftmals eine Einfachstruktur der Ladungen (noch) besser erreicht und die Interpretierbarkeit erleichtert
Zudem ist die Annahme der Korreliertheit oft theoretisch plausibel
Da die Faktorladungen nicht mehr den Korrelationen zwischen einem Faktor und Item entsprechen, stellt die Lösung zwei Matrizen bereit:
Mustermatrix (Ladungsmatrix): enthält die Faktorladungen zur Interpretation
Strukturmatrix: enthält die Korrelationen zw. den Faktoren u. Items

Nach obliquer Rotation sollten zusätzlich die Korrelationen zwischen den Faktoren angegeben werden

zentrale Techniken: Oblique Rotation

Benötigen Richtwerte für die Stärke der Faktorenkorrelationen.

ProMax: Transformation der Lösung einer orthogonalen VariMax-Rotation unter Zulassung von Korrelationen zwischen Faktoren

ObliMin, direkt: Die Kovarianz der quadrierten Ladungen, die zu verschiedenen Faktoren gehören, wird minimiert

QuartiMin, direkt: Spezialfall der ObliMin-Rotation (Delta-Parameter wird auf 0 gestellt); hat vorteilhafte Eigenschaften, ist insgesamt als Technik der obliquen Rotation zu empfehlen (Fabrigar et al., 1999)

Vergleich zwischen orthogonaler und obliquer Rotation:

Vergleich zur unrotierten Lösung

Orthogonale (rechtwinklige) Rotation

Die Faktorladungen und die Summe der quadrierten Faktorladungen pro Faktor (Eigenwerte) ändern sich
Die Kommunalitäten der Items sowie die Summe der Eigenwerte und damit auch der Anteil der insgesamt aufgeklärten Varianz (Summe der Eigenwerte geteilt durch die Itemanzahl i) sind identisch mit der unrotierten Lösung

Oblique (schiefwinklige) Rotation

Die Faktorladungen ändern sich
Die Faktorladungen entsprechen zudem nicht mehr den Korrelationen zwischen dem jeweiligen Faktor u. Item
Die Summe der quadrierten Faktorladungen pro Faktor ändert sich ebenfalls, sie entspricht zudem nicht mehr der durch den Faktor erklärten Varianz (Eigenwert)
Die Kommunalitäten der Items sowie der Anteil der insgesamt aufgeklärten Varianz sind identisch mit der unrotierten Lösung, sie können jedoch nicht mehr nach den vorgestellten Formeln berechnet werden

Voraussetzungen für die EFA

Intervallskalenniveau (es gibt aber auch faktorenanalytische Modelle für ordinale und dichotome Variablen)

Ausreichende Interkorrelation der beobachteten Variablen

Prüfkriterien:

1.Kaiser-Meyer-Olkin(KMO)-Kriterium zeigt an, inwiefern die beobachteten Variablen zusammenhängen und eine Faktorenanalyse daher sinnvoll ist: .9 (sehr gut); .8-.89 (gut); .7-.79 (mittel); .6-.69 (mäßig); .5-.59 (schlecht); < .5 (ungeeignet für EFA)
2.Bartlett-Test auf Sphärizität überprüft die Nullyhypothese, dass alle beobachteten Variablen in der Population unkorreliert sind --> d.h. Bartlett-Test sollte signifikant werden, wenn man eine EFA durchführen will
Maximum-Likelihood-Faktorenanalyse: Items sollten multivariat normalverteilt sein

benötigte Stichprobengröße für die EFA

Mind. vier Indikatoren pro erwartetem Faktor, besser sechs, wenn Unsicherheit gegeben ist über die Anzahl an Faktoren

Stichprobengröße

N=100 ausreichend, wenn Kommunalitäten hoch (>.70 --> in der Praxis selten) und vier bis fünf Indikatoren pro Faktor vorhanden sind
Bei moderaten Kommunalitäten (z.B. .40-.70) und moderater Überdeterminiertheit der Faktoren, sollte das N mind. 200 sein
Bei suboptimalen Bedingungen (niedrige Kommunalitäten, wenige Indikatoren pro Faktor) sollte das N>400 sein

Welche Methode der Faktorenanalyse sollte verwendet werden?

Ziel ist maximale Varianzaufklärung bzw. Informationsreduktion --> PCA

Ziel ist Identifizierung interpretierbarer Konstrukte, die die Korrelation zwischen manifesten Variablen erklären --> EFA

In der EFA werden daher die Faktoren auch nicht alleine daran bemessen, wie viel Varianz sie erklären. Vielmehr ist hier das Kriterium, wie sehr ein Faktor dazu beiträgt, dass Muster an Zusammenhängen zwischen den manifesten Variablen zu erklären

EFA also in vielen Fällen adäquater, allerdings gibt es auch hier eine Einschränkung: Wenn a priori Annahmen bestehen über Anzahl an Faktoren und man spezifizieren kann, welche Indikatoren auf welchem latenten Faktor laden, sollte die CFA verwendet werden

Welche Kriterien zur Bestimmung der Anzahl an Faktoren?

Entscheidung hat immer eine subjektive Komponente

Verwendet werden sollten die Parallelanalyse und/oder der MAP-Test in Kombination mit inhaltlichen Erwägungen (Interpretierbarkeit/Erwartbarkeit) der Lösung

Nicht verwendet werden sollte das Eigenwerte größer eins – Kriterium (Kaiser-Guttman-Kriterium)

Wenn Lösungen uneindeutig, dann sollten verschiedene (rotierte) Lösungen miteinander verglichen werden

Welche Klasse von Rotationstechniken?

Oblique vs. orthogonale Rotation

Ziel ist immer die Generierung einer Einfachstruktur Variablen laden (vom Betrag her) hoch auf einem Faktor und niedrig bzw. gar nicht auf den restlichen Faktoren

Annahme unkorrelierter Faktoren meist unwahrscheinlich

Daher immer sinnvoll, oblique Rotation anzuwenden, zumal gilt…

--> Wenn tatsächlich orthogonale Faktoren eine optimale Einfachstruktur erzeugen, resultiert eine orthogonale Lösung auch bei Verwendung einer obliquen Rotationstechnik (Korrelationen werden zugelassen, müssen aber nicht zwangsläufig auftreten)

EFA

Créer ou copier des fichiers d'apprentissage

Créer ou copier des fichiers d'apprentissage

Connecte-toi pour voir toutes les cartes.

SWITCHaai

Office 365

Edulog

Apple ID

Google