Premium Partner

Datamining

Datamining Process

Datamining Process

Nicht sichtbar

Nicht sichtbar

Kartei Details

Karten 58
Sprache Deutsch
Kategorie Informatik
Stufe Universität
Erstellt / Aktualisiert 02.09.2013 / 07.02.2018
Lizenzierung Kein Urheberrechtsschutz (CC0)
Weblink
https://card2brain.ch/box/datamining
Einbinden
<iframe src="https://card2brain.ch/box/datamining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist Datamining?

Bsp: Kreditrisikovorhersage, ist der Bewerber kreditwürdig?

Lösungen:

Data Mining Lösung: erzeuge Regel wie wahrscheinlich es ist, dass jemand Kreditwürdig ist, auf Basis von historischen Bankdaten.

 

Dataminig: Definitionen

"Fortschrittliche Methoden zum Entdecken und Modellieren von Beziehungen in großen Datenmengen"

"Erforschung von nützlichen Zusammenhängen innerhalb von Daten"

"Prozess der Identifikation von nützlichen Mustern und regelmäßigkeiten in großen Datenkörpern"

 

Mulitdisziplinär (siehe Grafik):

Datamining vs. Data Warehousing

Verschiedenen Ansätze der Datenanalyse:

Data Mining: Beziehungen in Daten erforschen

DataWarehouse/OLAP: mulitdimensionales Modell

SQL: Abfragen auf Rohdaten

Datamining Techniken

  • Predicitve Modelling
  • Cluster analysis
  • Dependency derivation (association rules)
  • web mining
  • Text mining
  • Sequence Matching
  • Time Series Forecasting

Predictive Modelling - Problemformulierung

Historische Daten, Input Variablen (Attribute des Objekts), Zielvariable

Pred.Mod. beinhaltet:

  • erstellen eines Modells von Zielbeziehungen
  • ermittlung der Prognosegüte dieses Modells für unbekannte Daten

Modellierungsmöglichkeiten

  • Klassifikation: für qualitative Ziele
  • Regression: für quantitative Ziele

Methoden/Algorithmen für Pred. Mod.:

  • Lineare Regression
  • Lineare/Nichtlineare Diskriminanzanalyse
  • Logistische Regression
  • Classification u. Regression Trees
  • Neuronale Netze
  • SVM
  • Nichparametrische Verfahren (Nearest Neighbor)

Amwendung: Kreditrisiko, Versicherungsbetrug, Genetik (risiko gruppen vorhersage, vorhersage Chemotherapie..), Produktionsbetriebe (Assement, Qualität)

 

 

 

 

Clustering  - Formulierung

finde Gruppen von Objekten die sich ähnlich sind aber unähnlich zu andern Gruppen. Keine Zielvariable (unüberwachtes Lernen)

 

Anwendung: Customerprofiling, Target Marketing, Bioinformatics (ähnliche Gene, Krankheitstaxonomie ähnlicher Muster)

Clustering - Methoden, Herausforderungen

  • Hierarchisches Clustering
  • K-Means (nichtdeterministisch)
  • SVM..

Herausforderungen:

  • Nicht robust im ermitteln der exakten Anzahl der Cluster
  • Ergebnis hängt von Methoden des Clustering ab

 

Association Rules (Assoziationsregeln)

Aufgabe: eine Gruppe von Artikel finden die häufig gemeinsam gekauft werden

Ergebnisse werden üblicherwiese als Assoziationsregel A->B ausgedrückt, wobei

  • Unterstüzung der Regel = Häufigkeit {A,B}
  • und Vertrauen in die Regel = Pr{B|A} hoch genug ist.
  • Interesanter Parameter der Regel ist lift = Pr(B|A)/Pr(B)
    • Pr(B) = Wahrscheinl. B zu kaufen, Regel liften die Wahrscheinlichkeit B zu kaufen

Herausforderung: finden aller Regeln mit minimaler Unterstützung und minimalem Vertrauen in großer Datenmenge!

Anwendungen: Körbe=Dokumente, Artikel = Wörter; Gemeinsam vorkommende Wörter implizieren für ein Gebiet charakteristische Phrasen; Benutzt zur aut. Textklassifikation