Clusteranalyse
Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"
Karten zum Thema "Clusteranalyse" für den Kurs "Methoden der Skalierung"
Kartei Details
Karten | 52 |
---|---|
Sprache | Deutsch |
Kategorie | Psychologie |
Stufe | Universität |
Erstellt / Aktualisiert | 10.05.2020 / 31.01.2023 |
Weblink |
https://card2brain.ch/box/20200510_clusteranalyse
|
Einbinden |
<iframe src="https://card2brain.ch/box/20200510_clusteranalyse/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wie heißen die Maße auf deren Basis bei Clusteranalysen Gruppen gebildet werden?
Proximitätsmaße
Nenne die Proximitätsmaße für metrische Daten.
- L1-Norm (City-Block)
- L2-Norm (Euklidische Distanz)
- Q-Korrelations-Koeffizient
- Mahalanobis-Distanz
Nenne die Proximitätsmaße für nominale Daten.
- Tanimoto-Koeffizient (Jaccard)
- RR-Koeffizient
- M-Koeffizient
- Dice-Koeffizient
- Kulczynski-Koeffizient
Hierarchische Verfahren
Wie heißen die Verfahren, die
- von der feinsten Partition ausgehend ...
- von der gröbsten Partition ausgehend ...
- agglomerativ
- divisiv
Nenne Beispiele für univariate, bivariate und multivariate Analyseverfahren.
- univariate Analyseverfahren: Methoden der statistischen Datenanalyse, die nur eine Variable zum Gegenstand haben; z.B. arithmetisches Mittel
- bivariate Analyseverfahren: Methoden der statistischen Datenanalyse, die zwei Variabeln zum Gegenstand haben; z.B. Korrelation
- multivariate Analyseverfahren: Methoden der statistischen Datenanalyse die mehrere Variablen zum Gegenstand haben; z.B. Clusteranalyse
Multivariate Verfahren können in strukturentdeckende (Interdependenzanalysen) und strukturprüfende Verfahren (Dependenzanalysen) eingeteilt werde. Beschreibe die Begriffe.
Interdependenzanalysen (strukturentdeckend):
- Entdeckung von Zusammenhängen zwischen Variablen
- Keine Einteilung in unabhängige und abhängige Variablen (=zweiseitige Abhängigkeit)
- Keine vorherige Vorstellung über mögliche Zusammenhäng
Dependenzanalysen (strukturprüfend):
- Überprüfung von Zusammenhängen zwischen Variablen
- Kausale Abhängigkeit: Einteilung in interessierende Variablen (abhängige Variablen) und unabhängige Variablen
- Sachlogischer / theoretischer Hintergrund
Wie wird der Tanimoto-Koeffizient (Jaccard) berechnet?
a/(a+b+c)
Wie wird der M-Koeffizient (Simple Matching) berechnet?
(a+d)/m
Wie wird der Russel & Roa -Koeffizient (RR) berechnet?
a/m
Wie wird der Dice-Koeffizient berechnet?
2a/(2a+(b+c))
Wie wird der Kulczynski-Koeffizient berechnet?
a/(b+c)
Wie kommt man von einem Ähnlichkeitsmaß zu einem Distanzmaß?
Distanzmaß = 1 - Ähnlichkeitsmaß
Welche Zelle kann Probleme machen und warum?
- bei bestimmten Kodierungen (z.B. V1: männlich vs. nicht-männlich, V2: Deutschland vs. nicht-Deutschland, V3: Finnland vs. nicht-Finnland) kann es sein, dass sich durch die Zeile d Gemeinsamkeiten ergeben, obwohl es eigentlich gar keine geben sollte
Lassen sich Proximitätsmaße für ordinal skalierte Daten bestimmen?
- bisher wurde kein geeignetes Maß gefunden
Lösungen
- künstliche Dichotomisierung der Rangdaten
- Rangvariable in mehrere binäre Indikatorvariablen umwandeln
Lassen sich Proximitätsmaße für gemischt-skalierte Daten bestimmen?
Ja, Vorgehen:
1. Umwandlung auf eine niedrigeres Skalenniveau
2. Einzelne Distanzmaße (pro Skalenniveau) berechnen, die zu einem gemeinsamen Distanzmaß zusammengefasst werden
3. Clusteranalyse für Merkmalsgruppen mit gleichem Niveau, Übereinstimmung prüfen (Kappa-Maß bzw. Rand-Index)
Was ist die Minkowski-Metrik?
Eine allgemeine Form des Distanzmaße.
- r = 1 eingesetzt ergibt die City-Block-Distanz
- r = 2 eingesetzt ergibt die Euklidische Distanz
Wie kann die Ähnlichkeit bei metrischen Daten bestimmt werden?
Wie können hierarchische Verfahren weiter eingeteilt werden und was unterscheidet die Vorgehensweisen?
- Agglomerativ: Von dem einzelnen Objekt zur Gruppe
- Divisiv: Von der Gesamtgruppe zum einzelnen Objekt
Wie funktionieren partitionierende Fusionierungsalgorhythmen?
- Ausgehend von einer bestehenden Gruppierung der Objekte
- Solange austauschen, bis Objekte innerhalb einer Gruppe möglichst ähnlich sind und die Gruppen möglichst unterschiedlich sind
Was ist der Grundgedanke von Fusionierungsalgorithmen?
- Distanz in der Gruppe minimieren (Ähnlichkeit maximieren)
- Distanz zwischen den Gruppen maximieren (Ähnlichkeit minimieren)
Wie läuft das hierarchisch agglomerative Verfahren ab?
1. Jedes Objekt ist ein Cluster
2. Distanzmatrix: Welche zwei Objekte sind am ähnlichsten? Zusammengefasst zu der ersten Gruppe.
3. Neuberechnung der (reduzierten) Distanzmatrix: Die Gruppe ist ein neues Objekt.
4. Zusammenfassung der ähnlichsten Objekte
In welchem Schritt unterscheiden sich die verschiedenen agglomerativen Verfahren?
In der Art und Weise wie die veränderten Distanzmatrizen berechnet werden.
Was ist ein Zentroid?
Ein Zentroid ist die durchschnittliche Merkmalsausprägung aller Objekte innerhalb eines Clusters.