Premium Partner

KDD (Kap 3: Klassische Data-Mining Verfahren)

Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist Kapitel 3: Klassische Data-Mining Verfahren.

Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist Kapitel 3: Klassische Data-Mining Verfahren.


Kartei Details

Karten 53
Sprache Deutsch
Kategorie Informatik
Stufe Universität
Erstellt / Aktualisiert 26.02.2013 / 01.02.2018
Lizenzierung Kein Urheberrechtsschutz (CC0)
Weblink
https://card2brain.ch/box/kdd_kap_3_klassische_datamining_verfahren
Einbinden
<iframe src="https://card2brain.ch/box/kdd_kap_3_klassische_datamining_verfahren/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

(K3) Welche klassischen Data-Mining Verfahren kennen Sie (grob)?

  • Clustering
    • partitionierende Verfahren
    • dichtebasierte Verfahren
  • Frequent Pattern Mining
    • Apriori-Verfahren
    • ohne Kandidatengenerierung
  • Entscheidungsbaumverfahren (Klassifikation)

(K3.1) Erläutern Sie kurz "Clustering".

Unter Clusteranalyse (Clustering-Algorithmus, gelegentlich auch: Ballungsanalyse) versteht man Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen. (-> Häufungspunkt von Objekten im multidimenstionalen Raum)

Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. Die gefundenen Ähnlichkeitsgruppen können hierarchisch oder agglomerativ (dichtebasiert) sein, also Untergruppen oder Teilgruppen in Gruppen kennzeichnen.

Die Clusteranalyse ist eine wichtige Disziplin des Data-Mining, dem Analyseschritt des Knowledge Discovery in Databases Prozesses.

Clusterverfahren unterscheiden sich in

  • dichtebasierte Verfahren
  • hierarschische Verfahren

(K3.1) Was ist das Ziel vom Clustering?

Identifikation einer endlichen Menge von Kategorien/Klassen (Clustern) um Daten so zu beschreiben, dass

(a) Objekte im gleichen Cluster möglichst ähnlich und

(b) Objekte aus verschiedenen Clustern möglichst unähnlich zueinander

sind

(K3.1) Was sind allgemeine Clustering-Probleme?

  • Ähnlichkeitsbegriff
  • Cluster unterschiedlicher Größe, Form und Dichte
  • Cluster können hierarchisch ineinander verschachtelt sein

(K3.1) Nennen Sie Clustering-Anwendungsbeispiele.

  • Kundensegmentierung
    • Clustering der Kundentransaktionen
  • Bestimmung von Benutzergruppen auf dem Web
    • Clustering der Web-Logs
  • Strukturierung von großen Mengen von Textdokumenten
    • Hierarchisches Clustering der Textdokumente
  • Erstellung von thematischen Karten aus Satellitenbildern
    • Clustering der aus den Rasterbildern gewonnenen Featurevektoren

(K3.1) Was bewirkt eine Distanzfunktion?

Ähnlichkeit

Ein Maß für die „Nähe“ von Paaren von Objekten o1, o2 wird durch eine Distanzfunktion dist modelliert, die sich auf direkte oder abgeleitete Eigenschaften der Objekte stützt.

  • kleine Distanzen = ähnliche Objekte
  • große Distanzen = unähnliche Objekte

Clusteranalyse wird manchmal auch als „Distanzgruppierung“ bezeichnet

Die Güte einer Clusteranalyse hängt stark von der Adäquatheit der Distanzfunktion dist ab

(K3.1) Nennen Sie Beispiele für Distanzfunktionen (für Datensätze mit numerischen Werten).

  • L-Metrik (Minkowski-Distanz)
  • Euklidische Distanz
  • Manhattan Distanz
  • Maximums-Metrik

s. Abb.

(K3.2) Erläutern Sie die prinzipielle Idee hinter den partitionierenden Cluster Verfahren.

Partitionierende Verfahren zerlegen eine Datenmenge in k Cluster, wobei gilt:

  • jeder Cluster enthält mindestens ein Objekt
  • jedes Objekt gehört genau zu einem Cluster

Voraussetzung ist, dass die Objekte Punkte in einem d-dimensionalen euklidischen Vektorraum sind. -> Verwendung der euklidischen Distanz für die Ähnlichkeit.

Zentroide:

Jeder Cluster wird durch seinen Zentroid repräsentiert. Zentroid eines Clusters ist anschaulich der Mittelwert aller Punkte des Clusters.

Das Ziel ist es, die Cluster so kompakt wie möglich zu bilden (s.Abb.). Die k Klassen werden so gebildet, dass die Varianz bezüglich der gegebenen Mittewerte minimal wird („Varianz minimierende Techniken“).