Clusteranalyse

Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"

Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"


Kartei Details

Karten 52
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 10.05.2020 / 31.01.2023
Weblink
https://card2brain.ch/box/20200510_clusteranalyse
Einbinden
<iframe src="https://card2brain.ch/box/20200510_clusteranalyse/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie funktioniert das Zentroid-Verfahren?

Flora und Rama: 

1. Der Zentroid aus jeweiligen Mittelwerten: Kalorien (2), Preis (2) und Vitamin (1)

2. Distanzen neu berechnen. Quadrierte Euklid. Distanz der Zentroide: R/F zu H: (2-2)2+(2-3)2+(1-3)2=

3. Neuer Zentroid berechnen: Kalorien (2), Preis (2.33) und Vitamin (1.66

 

Was ist die Grundidee der Ward-Methode?

  • Unterschied in Vorgehensweise bei der Fusionierung: Geringste Veränderung des Heterogenitätsmaßes
  • Keine Berechnung von Distanzen, sondern Kennwert ist eine Veränderung der Fehlerquadratsumme (Varianzkriterium), die entsteht, wenn ein Objekt in eine Gruppe integriert wird.
  • Zu Beginn einer CA hat jedes Cluster eine Fehlerquadratsumme = 0
  • Die Matrix besteht nun aus hypothetischen Fehlerquadratzuwächsen für alle möglichen Paarungen.

Wie funktioniert die Ward-Methode? 

Flora und Rama: 

1. Der Zentroid dieser Gruppe ergibt sich aus den jeweiligen Mittelwerten von Kalorien (2), Preis (2) und Vitamin (1)

2. Der Anstieg der Fehlerquadratsumme ergibt sich aus allen quadrierten Abweichungen zu den entsprechenden Mittelwerten

  • eRama/Flora = (1-2)2 + (3-2)² + (2-2)² + (2-2)²+(1-1)² + (1-1)² = 2
  • eHoma/SB = (2-3.5)2 + (5-3.5)² + (3-3.5)² + (4-3.5)²+(3-5)² + (7-5)² = 13

Wann wird welches Verfahren angewandt? (Single Linkage, Average Linkage, WARD) 

Single Linkage:

  • Ausreißer fallen auf und könne eliminiert werden
  • Bildet große Gruppen (Kettenbildung)

Average Linkage:

  • Bildet viele kleine Gruppen mit wenig Objekten.

WARD-Verfahren:

  • Bildet ungefähr gleich große Gruppen, findet meist „sehr gute“ Gruppen, ordnet die Elemente meist „richtig“  zu

Wie sind agglomerative Clusterverfahren charakterisiert (Verfahren, Eigenschaft, Monoton?, Proximitätsmaße, Bemerkungen)? 

Wie kann die Clusteranzahl bestimmt werden? 

  • Dendrogramm
  • Struktogramm (vgl. Screeplot bei FA)

             - Bestimmung der Clusteranzahl anhand des „Ellbow“-Kriteriums

             - Sachlogische Überlegungen

Wie kann die Clusteranzahl geprüft werden? 

  • Berechnung mehrere Clusteranalysen an einem aufgeteilten Datensatz. Übereinstimmung mittels Kappa-Maß oder Rand-Index bestimmen.
  • Aufnahme zusätzlicher Variablen → Diskriminanzanalyse berechnen

Wie laufen partitionierende Verfahren ab? 

Welche Eigenschaften haben partitionierende Verfahren? 

  • Ausgehend von einer bestehenden Gruppierung der Objekte werden die Objekte solange ausgetauscht, bis Objekte innerhalb einer Gruppe möglichst ähnlich sind und die Gruppen möglichst unterschiedlich sind.
  • Die Zuordnung einzelner Objekte ist nicht endgültig, sondern die Objekte können mehrmals verschoben werden
  • Dient zur Optimierung bereits gefundener Clusterlösungen (z.B. mit hierarchischen Methoden)

Anwendungsempfehlung

1. Distanzmaß: Euklidische Distanz

2. Fusionierung mit Single Linkage: Eliminieren von Ausreißern

3. Clusterlösung mit WARD-Verfahren: Finden von sinnvollen Clustern

4. Optimierung der gefundenen Lösung mit einem partitionierenden Verfahren.

Welche zentralen Clusteranalyseverfahren gibt es bei SPSS und wie unterscheiden sie sich? 

Wie berechnet sich der Pearson Korrelationskoeffizient? 

siehe Excel