KDD (Kap 3: Klassische Data-Mining Verfahren)
Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist Kapitel 3: Klassische Data-Mining Verfahren.
Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist Kapitel 3: Klassische Data-Mining Verfahren.
Kartei Details
Karten | 53 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 26.02.2013 / 01.02.2018 |
Lizenzierung | Kein Urheberrechtsschutz (CC0) |
Weblink |
https://card2brain.ch/box/kdd_kap_3_klassische_datamining_verfahren
|
Einbinden |
<iframe src="https://card2brain.ch/box/kdd_kap_3_klassische_datamining_verfahren/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
(K3) Welche klassischen Data-Mining Verfahren kennen Sie (grob)?
- Clustering
- partitionierende Verfahren
- dichtebasierte Verfahren
- Frequent Pattern Mining
- Apriori-Verfahren
- ohne Kandidatengenerierung
- Entscheidungsbaumverfahren (Klassifikation)
(K3.1) Erläutern Sie kurz "Clustering".
Unter Clusteranalyse (Clustering-Algorithmus, gelegentlich auch: Ballungsanalyse) versteht man Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen. (-> Häufungspunkt von Objekten im multidimenstionalen Raum)
Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. Die gefundenen Ähnlichkeitsgruppen können hierarchisch oder agglomerativ (dichtebasiert) sein, also Untergruppen oder Teilgruppen in Gruppen kennzeichnen.
Die Clusteranalyse ist eine wichtige Disziplin des Data-Mining, dem Analyseschritt des Knowledge Discovery in Databases Prozesses.
Clusterverfahren unterscheiden sich in
- dichtebasierte Verfahren
- hierarschische Verfahren
(K3.1) Was ist das Ziel vom Clustering?
Identifikation einer endlichen Menge von Kategorien/Klassen (Clustern) um Daten so zu beschreiben, dass
(a) Objekte im gleichen Cluster möglichst ähnlich und
(b) Objekte aus verschiedenen Clustern möglichst unähnlich zueinander
sind
(K3.1) Was sind allgemeine Clustering-Probleme?
- Ähnlichkeitsbegriff
- Cluster unterschiedlicher Größe, Form und Dichte
- Cluster können hierarchisch ineinander verschachtelt sein
(K3.1) Nennen Sie Clustering-Anwendungsbeispiele.
- Kundensegmentierung
- Clustering der Kundentransaktionen
- Bestimmung von Benutzergruppen auf dem Web
- Clustering der Web-Logs
- Strukturierung von großen Mengen von Textdokumenten
- Hierarchisches Clustering der Textdokumente
- Erstellung von thematischen Karten aus Satellitenbildern
- Clustering der aus den Rasterbildern gewonnenen Featurevektoren
(K3.1) Was bewirkt eine Distanzfunktion?
Ähnlichkeit
Ein Maß für die „Nähe“ von Paaren von Objekten o1, o2 wird durch eine Distanzfunktion dist modelliert, die sich auf direkte oder abgeleitete Eigenschaften der Objekte stützt.
- kleine Distanzen = ähnliche Objekte
- große Distanzen = unähnliche Objekte
Clusteranalyse wird manchmal auch als „Distanzgruppierung“ bezeichnet
Die Güte einer Clusteranalyse hängt stark von der Adäquatheit der Distanzfunktion dist ab
(K3.2) Erläutern Sie die prinzipielle Idee hinter den partitionierenden Cluster Verfahren.
Partitionierende Verfahren zerlegen eine Datenmenge in k Cluster, wobei gilt:
- jeder Cluster enthält mindestens ein Objekt
- jedes Objekt gehört genau zu einem Cluster
Voraussetzung ist, dass die Objekte Punkte in einem d-dimensionalen euklidischen Vektorraum sind. -> Verwendung der euklidischen Distanz für die Ähnlichkeit.
Zentroide:
Jeder Cluster wird durch seinen Zentroid repräsentiert. Zentroid eines Clusters ist anschaulich der Mittelwert aller Punkte des Clusters.
Das Ziel ist es, die Cluster so kompakt wie möglich zu bilden (s.Abb.). Die k Klassen werden so gebildet, dass die Varianz bezüglich der gegebenen Mittewerte minimal wird („Varianz minimierende Techniken“).