Clusteranalyse

Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"

Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"


Kartei Details

Karten 52
Sprache Deutsch
Kategorie Psychologie
Stufe Universität
Erstellt / Aktualisiert 10.05.2020 / 31.01.2023
Weblink
https://card2brain.ch/box/20200510_clusteranalyse
Einbinden
<iframe src="https://card2brain.ch/box/20200510_clusteranalyse/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie heißen die Maße auf deren Basis bei Clusteranalysen Gruppen gebildet werden? 

Proximitätsmaße

Nenne die Proximitätsmaße für metrische Daten. 

  •  L1-Norm (City-Block) 
  •  L2-Norm (Euklidische Distanz) 
  •  Q-Korrelations-Koeffizient
  •  Mahalanobis-Distanz 

Nenne die Proximitätsmaße für nominale Daten. 

  •  Tanimoto-Koeffizient (Jaccard) 
  •  RR-Koeffizient 
  •  M-Koeffizient 
  •  Dice-Koeffizient
  •  Kulczynski-Koeffizient

Wie berechnet man einen T-Score? 

T = z*10+50 

Hierarchische Verfahren 

Wie heißen die Verfahren, die 

- von der feinsten Partition ausgehend ... 

- von der gröbsten Partition ausgehend ... 

- agglomerativ

- divisiv

Nenne Beispiele für univariate, bivariate und multivariate Analyseverfahren. 

  •  univariate Analyseverfahren: Methoden der statistischen Datenanalyse, die nur eine Variable zum Gegenstand haben; z.B. arithmetisches Mittel 
  • bivariate Analyseverfahren: Methoden der statistischen Datenanalyse, die zwei Variabeln zum Gegenstand haben; z.B. Korrelation 
  • multivariate Analyseverfahren: Methoden der statistischen Datenanalyse die mehrere Variablen zum Gegenstand haben; z.B. Clusteranalyse

Multivariate Verfahren können in strukturentdeckende (Interdependenzanalysen) und strukturprüfende Verfahren (Dependenzanalysen) eingeteilt werde. Beschreibe die Begriffe. 

Interdependenzanalysen (strukturentdeckend): 

  • Entdeckung von Zusammenhängen zwischen Variablen
  • Keine Einteilung in unabhängige und abhängige Variablen (=zweiseitige Abhängigkeit)
  • Keine vorherige Vorstellung über mögliche Zusammenhäng

Dependenzanalysen (strukturprüfend): 

  • Überprüfung von Zusammenhängen zwischen Variablen
  • Kausale Abhängigkeit: Einteilung in interessierende Variablen (abhängige Variablen) und unabhängige Variablen
  • Sachlogischer / theoretischer Hintergrund

Nenne einige Dependenzanalysen und teile sie anhand der Beschaffenheit ihrer Variablen ein. 

  •  Kontingenzanalyse
  •  multiple Varianzanalyse 
  •  Diskriminanzanalyse 
  •  Logistische Regression 
  •  multiple Regressionsanalyse 

Nenne einige Interdependenzanalysen und teile sie anhand der Beschaffenheit ihrer Variablen ein. 

  •  Multidimensionale Skalierung
  •  Clusteranalyse
  •  Faktorenanalyse 

Beschreibe den schematischen Ablauf der Clusteranalyse

1. Ausgangsmatrix

2. Wahl eines Proximitätsmaß

3. Bestimmung der Ähnlichkeiten oder Distanzen der Objekte

4. Auswahl eines Fusionierungsalgorithmus 

5. Bestimmung der Clusteranzahl 

Wie wird der Tanimoto-Koeffizient (Jaccard) berechnet? 

a/(a+b+c)

Wie wird der M-Koeffizient (Simple Matching) berechnet? 

(a+d)/m

Wie wird der Russel & Roa -Koeffizient (RR) berechnet? 

a/m

Wie wird der Dice-Koeffizient berechnet? 

2a/(2a+(b+c))

Wie wird der Kulczynski-Koeffizient berechnet? 

a/(b+c) 

Wie kommt man von einem Ähnlichkeitsmaß zu einem Distanzmaß? 

Distanzmaß = 1 - Ähnlichkeitsmaß

Welche Zelle kann Probleme machen und warum? 

- bei bestimmten Kodierungen (z.B. V1: männlich vs. nicht-männlich, V2: Deutschland vs. nicht-Deutschland, V3: Finnland vs. nicht-Finnland) kann es sein, dass sich durch die Zeile d Gemeinsamkeiten ergeben, obwohl es eigentlich gar keine geben sollte

Lassen sich Proximitätsmaße für ordinal skalierte Daten bestimmen? 

  •  bisher wurde kein geeignetes Maß gefunden

Lösungen 

  •  künstliche Dichotomisierung der Rangdaten 
  •  Rangvariable in mehrere binäre Indikatorvariablen umwandeln 

Lassen sich Proximitätsmaße für gemischt-skalierte Daten bestimmen? 

Ja, Vorgehen: 

1. Umwandlung auf eine niedrigeres Skalenniveau

2. Einzelne Distanzmaße (pro Skalenniveau) berechnen, die zu einem gemeinsamen Distanzmaß zusammengefasst werden

3. Clusteranalyse für Merkmalsgruppen mit gleichem Niveau, Übereinstimmung prüfen (Kappa-Maß bzw. Rand-Index)

Wie berechnet sich die L1-Norm (City-Block-Metrik)? 

d = |1-2|+|2-3|+|1-3| = 1+1+2 = 4

Wie berechnet sich die L2-Norm (Euklidische Distanz)? 

d = Wurzel aus (1−2)²+(2−3)²+(1−3)²= Wurzel aus 6 = 2.45

Wie berechnet sich die quadrierte euklidische Distanz? 

d = (1-2)²+(2-3)²+(1-3)² = 1+1+4 =  6

Was ist die Minkowski-Metrik? 

Eine allgemeine Form des Distanzmaße. 

  •  r = 1 eingesetzt ergibt die City-Block-Distanz 
  •  r = 2 eingesetzt ergibt die Euklidische Distanz 

Wie kann die Ähnlichkeit bei metrischen Daten bestimmt werden?

  • Als Ähnlichkeitskoeffizient kann auch ein Korrelationsmaß verwendet werden
  • Ähnlichkeit bezieht sich hier auf die „Struktur“ der Ähnlichkeit zweier Objekte über die Merkmale
  • Allerdings gehen Unterschiede bzgl. des Niveaus der beiden Objekte verloren

Inwiefern sind sich Rama, SB und W-Butter ähnlich?

  • Vom Niveau her sind SB und W-Butter ähnlich
  • Von der Struktur her sind Rama und W-Butter ähnlich

Was ist der Standard bei Fusionierungsalgorhythmen? 

Hierarchisch agglomerative Verfahren

Wie können hierarchische Verfahren weiter eingeteilt werden und was unterscheidet die Vorgehensweisen?

  • Agglomerativ: Von dem einzelnen Objekt zur Gruppe
  • Divisiv: Von der Gesamtgruppe zum einzelnen Objekt

Wie funktionieren partitionierende Fusionierungsalgorhythmen? 

  • Ausgehend von einer bestehenden Gruppierung der Objekte
  • Solange austauschen, bis Objekte innerhalb einer Gruppe möglichst ähnlich sind und die Gruppen möglichst unterschiedlich sind 

Was ist der Grundgedanke von Fusionierungsalgorithmen?

  • Distanz in der Gruppe minimieren (Ähnlichkeit maximieren)
  • Distanz zwischen den Gruppen maximieren (Ähnlichkeit minimieren)

Wie läuft das hierarchisch agglomerative Verfahren ab? 

1. Jedes Objekt ist ein Cluster

2. Distanzmatrix: Welche zwei Objekte sind am ähnlichsten? Zusammengefasst zu der ersten Gruppe.

3. Neuberechnung der (reduzierten) Distanzmatrix: Die Gruppe ist ein neues Objekt.

4. Zusammenfassung der ähnlichsten Objekte

In welchem Schritt unterscheiden sich die verschiedenen agglomerativen Verfahren? 

In der Art und Weise wie die veränderten Distanzmatrizen berechnet werden. 

Wie könnte das Single-Linkage Verfahren graphisch dargestellt werden? 

Wie könnte das Complete-Linkage Verfahren graphisch dargestellt werden? 

Wie berechnet sich die neue Distanzmatrix anhand des Single Linkage Verfahrens?

Wie berechnet sich die neue Distanzmatrix anhand des Complete Linkage Verfahrens? 

Wie könnte das Average-Linkage Verfahren between groups und within groups graphisch dargestellt werden? 

Wie berechnet sich die neue Distanzmatrix nach dem Average-Linkage Verfahren?

Wie können das Median- und das Zentroid-Verfahren graphisch dargestellt werden? 

Bei Zentroid-Verfahren gewichteter Mittelwert! 

Was ist ein Zentroid? 

Ein Zentroid ist die durchschnittliche Merkmalsausprägung aller Objekte innerhalb eines Clusters. 

Wie funktionert das Median Verfahren? 

Für Flora und Rama: 

1. Der Zentroid aus jeweiligen Mittelwerten: Kalorien (2), Preis (2) und Vitamin (1

2. Distanzen neu berechnen. Quadrierte Euklid. Distanz der Zentroide: R/F zu H: (2-2)2+(2-3)2+(1-3)2=5

3. Neuer Zentroid berechnen: Kalorien (2), Preis (2.5) und Vitamin (2)