KDD (Kap 1&2: Einführung und Grundlagen)

Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist das Einführungs- und Grundlagenkapitel (Kap. 1&2).

0.0 (0)

Kartei Details

Karten	22
Sprache	Deutsch
Kategorie	Informatik
Stufe	Universität
Erstellt / Aktualisiert	05.12.2012 / 01.02.2018
Lizenzierung	Kein Urheberrechtsschutz (CC0)
Weblink	https://card2brain.ch/box/kdd_kap_12_einfuehrung_und_grundlagen
Einbinden	<iframe src="https://card2brain.ch/box/kdd_kap_12_einfuehrung_und_grundlagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Flip-Modus

Was ist KDD?

Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen (mit Nutzeraktion) Extraktion von Wissen aus Datenabnken, das gültig (im statistischen Sinne), bisher unbekannt (nicht explizit vorhanden, kein Allgemeinwissen) und potenziell nützlich (für gegebene Anwendung) ist.

Definition von KDD? (nach Fayyad, Piatetsky-Shapiro & Smyth)

Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig, bisher unbekannt und potentiell nützlich ist

Ziele von KDD im kommerzieller Bereich

Erfassung und Speicherung großer Datenmengen

•Artikeldaten, Lagerbestände, Warenbewegungen, Lieferantendaten

•Kaufvorgänge, Kreditkartentransaktionen

•Kundenbefragungen

Datenauswertung mit dem Ziel

•Optimierung der Prozesse

•Verbesserung des Service

•Senkung der Kosten

Ziele von KDD im wissenschaftlicher Bereich

automatisierte Beobachtung und Erfassung

•Himmelsteleskope

•Simulationsmodelle (Wetter, Erdbeben, . . . )

•Microarrays in der Genforschung

Produktion riesiger Datenbestände (GB/Stunde)

•manuelle Aufbereitung und Auswertung kaum möglich

Ziele einer Analyse

•Klassifikation / Segmentierung der Daten

•Erstellung von Hypothesen

Unterschied zwischen Data Mining und Knowledge Discovery?

KDD:

• Grundidee der Wissensentdeckung: Wissen aus Daten

• Einordnung: KDD ist iterativer Prozess, in welchem die Hypothesen des Data-Mining-Schritts verifiziert und/oder interpretiert werden

Data Mining

Data-Mining ist also ein bestimmter Teil von KDD. Es ist der Prozess der Entdeckung von bedeutungsvollen neuen Korrelationen, Pattern (Muster) und trends durch die Durchsuchung von großen Datenmengen aus Repositories mithilfe von Mustererkennungstechnologien als auch statistischen und mathematischen Techniken.

- keine Verifikation statistischer Annahmen

- „selbständige" Generierung von Hypothesen

KDD: Abgrenzung

Was sind aufgaben des KDD und was nicht? (Beispiele)

KDD-Aufgaben

•Produkte, die häufig gemeinsam gekauft wurden

•Kriterien für Kreditwürdigkeit von Kunden

•Sterne oder Galaxien mit ähnlichen Merkmalen

•. . .

keine KDD-Aufgaben

•Suche bei google

•Verkaufszahlen einer CD im letzten Monat

•. . .

Was sind die Ursprünge von KDD?

Ø Neue Herausforderungen:

○ Datenvolumen

○ Hohe Dimensionalität der Daten

○ Heterogenität

○ Verteilung

Was sind die wesentlichen Schritte beim KDD. Beschreiben Sie die Aufgaben während der einzelnen Schritte.

=>iterativer Prozess

○ Selektion: Auswahl von Daten einer Datenbasis

○ Vorverarbeitung: Störungen wie Datenfehler oder Unvollständigkeit suchen und entfernen (entfällt beim Data Warehousing)

○ Transformation: Quantität verringern

-> Attribute ohne oder mit geringem Vorkommen in der Datenbasis entfernen

-> in geeignete Analyseform umformen

○ Data Mining: Aufgabenspezifikation bestimmt das Data Mining Verfahren

○ Interpretation und Verifikation