KDD (Kap 1&2: Einführung und Grundlagen)
Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist das Einführungs- und Grundlagenkapitel (Kap. 1&2).
Lernkarteien zur "Knowledge Discovery in Databases (KDD)" Vorlesung bei Herrn Prof. Sattler, WS 2012/13 - TU Ilmenau. Dies ist das Einführungs- und Grundlagenkapitel (Kap. 1&2).
Kartei Details
Karten | 22 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 05.12.2012 / 01.02.2018 |
Lizenzierung | Kein Urheberrechtsschutz (CC0) |
Weblink |
https://card2brain.ch/box/kdd_kap_12_einfuehrung_und_grundlagen
|
Einbinden |
<iframe src="https://card2brain.ch/box/kdd_kap_12_einfuehrung_und_grundlagen/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was ist KDD?
Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen (mit Nutzeraktion) Extraktion von Wissen aus Datenabnken, das gültig (im statistischen Sinne), bisher unbekannt (nicht explizit vorhanden, kein Allgemeinwissen) und potenziell nützlich (für gegebene Anwendung) ist.
Definition von KDD? (nach Fayyad, Piatetsky-Shapiro & Smyth)
Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das gültig, bisher unbekannt und potentiell nützlich ist
Ziele von KDD im kommerzieller Bereich
Erfassung und Speicherung großer Datenmengen
•Artikeldaten, Lagerbestände, Warenbewegungen, Lieferantendaten
•Kaufvorgänge, Kreditkartentransaktionen
•Kundenbefragungen
Datenauswertung mit dem Ziel
•Optimierung der Prozesse
•Verbesserung des Service
•Senkung der Kosten
Ziele von KDD im wissenschaftlicher Bereich
automatisierte Beobachtung und Erfassung
•Himmelsteleskope
•Simulationsmodelle (Wetter, Erdbeben, . . . )
•Microarrays in der Genforschung
Produktion riesiger Datenbestände (GB/Stunde)
•manuelle Aufbereitung und Auswertung kaum möglich
Ziele einer Analyse
•Klassifikation / Segmentierung der Daten
•Erstellung von Hypothesen
KDD:
• Grundidee der Wissensentdeckung: Wissen aus Daten
• Einordnung: KDD ist iterativer Prozess, in welchem die Hypothesen des Data-Mining-Schritts verifiziert und/oder interpretiert werden
Data Mining
Data-Mining ist also ein bestimmter Teil von KDD. Es ist der Prozess der Entdeckung von bedeutungsvollen neuen Korrelationen, Pattern (Muster) und trends durch die Durchsuchung von großen Datenmengen aus Repositories mithilfe von Mustererkennungstechnologien als auch statistischen und mathematischen Techniken.
- keine Verifikation statistischer Annahmen
- „selbständige" Generierung von Hypothesen
KDD: Abgrenzung
Was sind aufgaben des KDD und was nicht? (Beispiele)
KDD-Aufgaben
•Produkte, die häufig gemeinsam gekauft wurden
•Kriterien für Kreditwürdigkeit von Kunden
•Sterne oder Galaxien mit ähnlichen Merkmalen
•. . .
keine KDD-Aufgaben
•Suche bei google
•Verkaufszahlen einer CD im letzten Monat
•. . .
Was sind die wesentlichen Schritte beim KDD. Beschreiben Sie die Aufgaben während der einzelnen Schritte.
=>iterativer Prozess
○ Selektion: Auswahl von Daten einer Datenbasis
○ Vorverarbeitung: Störungen wie Datenfehler oder Unvollständigkeit suchen und entfernen (entfällt beim Data Warehousing)
○ Transformation: Quantität verringern
-> Attribute ohne oder mit geringem Vorkommen in der Datenbasis entfernen
-> in geeignete Analyseform umformen
○ Data Mining: Aufgabenspezifikation bestimmt das Data Mining Verfahren
○ Interpretation und Verifikation