Datamining
Datamining Process
Datamining Process
Kartei Details
Karten | 58 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 02.09.2013 / 07.02.2018 |
Lizenzierung | Kein Urheberrechtsschutz (CC0) |
Weblink |
https://card2brain.ch/box/datamining
|
Einbinden |
<iframe src="https://card2brain.ch/box/datamining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Dataminig: Definitionen
Datamining vs. Data Warehousing
Verschiedenen Ansätze der Datenanalyse:
Data Mining: Beziehungen in Daten erforschen
DataWarehouse/OLAP: mulitdimensionales Modell
SQL: Abfragen auf Rohdaten
Datamining Techniken
- Predicitve Modelling
- Cluster analysis
- Dependency derivation (association rules)
- web mining
- Text mining
- Sequence Matching
- Time Series Forecasting
Predictive Modelling - Problemformulierung
Historische Daten, Input Variablen (Attribute des Objekts), Zielvariable
Pred.Mod. beinhaltet:
- erstellen eines Modells von Zielbeziehungen
- ermittlung der Prognosegüte dieses Modells für unbekannte Daten
Modellierungsmöglichkeiten
- Klassifikation: für qualitative Ziele
- Regression: für quantitative Ziele
Methoden/Algorithmen für Pred. Mod.:
- Lineare Regression
- Lineare/Nichtlineare Diskriminanzanalyse
- Logistische Regression
- Classification u. Regression Trees
- Neuronale Netze
- SVM
- Nichparametrische Verfahren (Nearest Neighbor)
Amwendung: Kreditrisiko, Versicherungsbetrug, Genetik (risiko gruppen vorhersage, vorhersage Chemotherapie..), Produktionsbetriebe (Assement, Qualität)
Clustering - Methoden, Herausforderungen
- Hierarchisches Clustering
- K-Means (nichtdeterministisch)
- SVM..
Herausforderungen:
- Nicht robust im ermitteln der exakten Anzahl der Cluster
- Ergebnis hängt von Methoden des Clustering ab
Association Rules (Assoziationsregeln)
Aufgabe: eine Gruppe von Artikel finden die häufig gemeinsam gekauft werden
Ergebnisse werden üblicherwiese als Assoziationsregel A->B ausgedrückt, wobei
- Unterstüzung der Regel = Häufigkeit {A,B}
- und Vertrauen in die Regel = Pr{B|A} hoch genug ist.
- Interesanter Parameter der Regel ist lift = Pr(B|A)/Pr(B)
- Pr(B) = Wahrscheinl. B zu kaufen, Regel liften die Wahrscheinlichkeit B zu kaufen
Herausforderung: finden aller Regeln mit minimaler Unterstützung und minimalem Vertrauen in großer Datenmenge!
Anwendungen: Körbe=Dokumente, Artikel = Wörter; Gemeinsam vorkommende Wörter implizieren für ein Gebiet charakteristische Phrasen; Benutzt zur aut. Textklassifikation