Clusteranalyse
Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"
Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"
Kartei Details
Karten | 52 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 10.05.2020 / 31.01.2023 |
Weblink |
https://card2brain.ch/box/20200510_clusteranalyse
|
Einbinden |
<iframe src="https://card2brain.ch/box/20200510_clusteranalyse/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Was ist ein Zentroid?
Ein Zentroid ist die durchschnittliche Merkmalsausprägung aller Objekte innerhalb eines Clusters.
Was ist die Grundidee der Ward-Methode?
- Unterschied in Vorgehensweise bei der Fusionierung: Geringste Veränderung des Heterogenitätsmaßes
- Keine Berechnung von Distanzen, sondern Kennwert ist eine Veränderung der Fehlerquadratsumme (Varianzkriterium), die entsteht, wenn ein Objekt in eine Gruppe integriert wird.
- Zu Beginn einer CA hat jedes Cluster eine Fehlerquadratsumme = 0
- Die Matrix besteht nun aus hypothetischen Fehlerquadratzuwächsen für alle möglichen Paarungen.
Flora und Rama:
1. Der Zentroid dieser Gruppe ergibt sich aus den jeweiligen Mittelwerten von Kalorien (2), Preis (2) und Vitamin (1)
2. Der Anstieg der Fehlerquadratsumme ergibt sich aus allen quadrierten Abweichungen zu den entsprechenden Mittelwerten
- eRama/Flora = (1-2)2 + (3-2)² + (2-2)² + (2-2)²+(1-1)² + (1-1)² = 2
- eHoma/SB = (2-3.5)2 + (5-3.5)² + (3-3.5)² + (4-3.5)²+(3-5)² + (7-5)² = 13
Wann wird welches Verfahren angewandt? (Single Linkage, Average Linkage, WARD)
Single Linkage:
- Ausreißer fallen auf und könne eliminiert werden
- Bildet große Gruppen (Kettenbildung)
Average Linkage:
- Bildet viele kleine Gruppen mit wenig Objekten.
WARD-Verfahren:
- Bildet ungefähr gleich große Gruppen, findet meist „sehr gute“ Gruppen, ordnet die Elemente meist „richtig“ zu
Wie kann die Clusteranzahl bestimmt werden?
- Dendrogramm
- Struktogramm (vgl. Screeplot bei FA)
- Bestimmung der Clusteranzahl anhand des „Ellbow“-Kriteriums
- Sachlogische Überlegungen
Wie kann die Clusteranzahl geprüft werden?
- Berechnung mehrere Clusteranalysen an einem aufgeteilten Datensatz. Übereinstimmung mittels Kappa-Maß oder Rand-Index bestimmen.
- Aufnahme zusätzlicher Variablen → Diskriminanzanalyse berechnen
Welche Eigenschaften haben partitionierende Verfahren?
- Ausgehend von einer bestehenden Gruppierung der Objekte werden die Objekte solange ausgetauscht, bis Objekte innerhalb einer Gruppe möglichst ähnlich sind und die Gruppen möglichst unterschiedlich sind.
- Die Zuordnung einzelner Objekte ist nicht endgültig, sondern die Objekte können mehrmals verschoben werden
- Dient zur Optimierung bereits gefundener Clusterlösungen (z.B. mit hierarchischen Methoden)
Anwendungsempfehlung
1. Distanzmaß: Euklidische Distanz
2. Fusionierung mit Single Linkage: Eliminieren von Ausreißern
3. Clusterlösung mit WARD-Verfahren: Finden von sinnvollen Clustern
4. Optimierung der gefundenen Lösung mit einem partitionierenden Verfahren.
Wie heißen die Maße auf deren Basis bei Clusteranalysen Gruppen gebildet werden?
Proximitätsmaße
Nenne die Proximitätsmaße für metrische Daten.
- L1-Norm (City-Block)
- L2-Norm (Euklidische Distanz)
- Q-Korrelations-Koeffizient
- Mahalanobis-Distanz
Nenne die Proximitätsmaße für nominale Daten.
- Tanimoto-Koeffizient (Jaccard)
- RR-Koeffizient
- M-Koeffizient
- Dice-Koeffizient
- Kulczynski-Koeffizient
Hierarchische Verfahren
Wie heißen die Verfahren, die
- von der feinsten Partition ausgehend ...
- von der gröbsten Partition ausgehend ...
- agglomerativ
- divisiv
Nenne Beispiele für univariate, bivariate und multivariate Analyseverfahren.
- univariate Analyseverfahren: Methoden der statistischen Datenanalyse, die nur eine Variable zum Gegenstand haben; z.B. arithmetisches Mittel
- bivariate Analyseverfahren: Methoden der statistischen Datenanalyse, die zwei Variabeln zum Gegenstand haben; z.B. Korrelation
- multivariate Analyseverfahren: Methoden der statistischen Datenanalyse die mehrere Variablen zum Gegenstand haben; z.B. Clusteranalyse
Multivariate Verfahren können in strukturentdeckende (Interdependenzanalysen) und strukturprüfende Verfahren (Dependenzanalysen) eingeteilt werde. Beschreibe die Begriffe.
Interdependenzanalysen (strukturentdeckend):
- Entdeckung von Zusammenhängen zwischen Variablen
- Keine Einteilung in unabhängige und abhängige Variablen (=zweiseitige Abhängigkeit)
- Keine vorherige Vorstellung über mögliche Zusammenhäng
Dependenzanalysen (strukturprüfend):
- Überprüfung von Zusammenhängen zwischen Variablen
- Kausale Abhängigkeit: Einteilung in interessierende Variablen (abhängige Variablen) und unabhängige Variablen
- Sachlogischer / theoretischer Hintergrund
Wie wird der Tanimoto-Koeffizient (Jaccard) berechnet?
a/(a+b+c)
Wie wird der M-Koeffizient (Simple Matching) berechnet?
(a+d)/m
Wie wird der Russel & Roa -Koeffizient (RR) berechnet?
a/m
Wie wird der Dice-Koeffizient berechnet?
2a/(2a+(b+c))
Wie wird der Kulczynski-Koeffizient berechnet?
a/(b+c)
-
- 1 / 52
-