Datamining
Datamining Process
Datamining Process
Set of flashcards Details
Flashcards | 58 |
---|---|
Language | Deutsch |
Category | Computer Science |
Level | University |
Created / Updated | 02.09.2013 / 07.02.2018 |
Weblink |
https://card2brain.ch/box/datamining
|
Embed |
<iframe src="https://card2brain.ch/box/datamining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Datenwiederverwendungsmöglichkeiten
Standardansatz (Anzahl Datensätze > Anzahl Dimension)
Teilung in training/validierung und testMenge (aus dieser Menge wird der EPE (Estimation of Expected Prediction Error) ermittelt
Anzahl<Dimension Fall --> nicht genug Daten zum Validieren und Testen:
K-Fold cross validation oder leave one out crossvalidation
Fluch der Dimensionalität
in höheren Dimensionraum gibt es weniger Trainingsdaten im Eingangsraum, daher werden andere Data-Mining Techniken wie Clustering, K-nearest Neighbor angewandt
Principal Components Analysis (PCA) - Idee
Transformiere die Originalmenge von p Variablen (von n Beobachtungen) zu einer unkorrelierten Menge von p latenten Variablen = Principal Components
Varianz der Daten ist den ersten latenten Variablen absteigen nach deren Varianz geordnet vorhanden
Anwendung:
Technik zum Analysieren von Hochdimensionalen Daten
Erste Principal Component werden benutzt um die Anzahl der Variablen in Predictive Modeling zu reduzieren
PCA - Technische Details
von p numerischen Variabeln können p Pricinipal Components (gleiche Anzahl) berechnet werden.
Jeder PC ist eine Linearkombination der Originalvariablen, deren Koeffizient den Eigenvektor ihere Korrelations (Kovarianz)matrix ensprechen.
Eigenvektoren werden üblicherweise als einheitlänge genommen
PC werden absteigend nach derem Eigenwerten sortiert, was deren Varianz entspricht.
Clustermethoden hierarchisch - nicht hierararisch
Nicht-Hierarische Methoden:
- K-Means Clustering
- nicht-deterministisch, O(n) Anzahl der Beobachtungen
Hierarische Methoden
- Agglomerative (kleine Cluster zusammenhängen)
- Divisive (große Cluster splitten)
- Deterministische Methoden
- O(n2) bis O(n3) - abhängig von der Methode (bzw. Intercluster Distanz)
Clustermethoden Anmerkungen
Clustering von großen Datenmengen: K-Means, wenn hierarisch zuerst teilung mittel k-means in 50 Cluster dann hiererachisch clustern
Consensus Clustering: Erforschung "echter" Cluster in Daten - analysiere Stabilität der Ergebnisse mit verrauschten Daten
K-Means - Algorithmus
Ergebnis: k seperierte Cluster
Anforderung: Angabe von k nötig; Problem: ist vorab zu bestimmen
HIerarchisches Clustering - Notation
Bezeichnungen:
xi....Observationen (i=1..n)
Ck.. Cluster
G...aktuelle Anzahl an Cluster
DKL..Distanz zwischen clusters CK and CL
Clusterdistanz DKL - linkage Funktion (versch.Definitionen verfügbar, Ergebnis hängt von DKL ab. - siehe Grafik
Algorithmus (Agglomeratives Hierarchisches Clustering)
Ck={xk], k=1..n, G=n
finde K, L sodaß DKL = min Du, 1<=I,J>=G
Ergebnis: Hierarchie von Cluster-->Dendrogramm
Definition von Distanzen zwischen Cluster
Verschiedene Definitionen:
Average Linkage
Single Linkage
Complete Linkage
Density Linkage
Ward's minimum Varianz Methode
---
Average Linkage
Tendiert dazu Cluster mit geringer Varianz zu clustern
Cluster tendieren dazu ähnliche Varianz zu haben
Notation:
xi – observations, i=1..n
–
d(x,y) – distance between observations (Euclidean distance assumed from now on)
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster
Complete Linkage
Resultierende Cluster tendieren dazu, ähnliche Durchmesser zu haben.
Notation:
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster
Single Linkage
Tendieren dazu, langestreckte/längliche Cluster zu bilden, mit unregelmäßigen Umriß
Notation:
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster
Wards minimum Varianz Methode
Tendiert dazu kleine Cluster zusammenzuhängen und produziert Cluster mit gleicher Anzahl an Observationen
Notation
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster
–
BKL=WM-WK-WL where CM=CK∪CL
Density Linkage
es wird ein single-linkage unter Verwendung des Maß d* realisiert
ermöglicht das erforschen von cluster mit unregelmäßigem Umriß
Notation:
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
r – a fixed constant
–
f(x) – proportion of observations within sphere centered at x with radius r divided by the volume of the sphere (measure of density of points near observation x)
Clustering Methoden - letzte Anmerkungen
1. Standardisierung von Variablen vor dem Clustering
oft nötig, sonst tenden Variablen mit großer Varianz dazu den Cluster zu dominieren
Das Standardisierungsmaß zij wird oft als z-Score berechnet (siehe Grafik)
xij ..... Originalmaß der Beobachtung i und variable j
müj ... Mittelwert der Variable j
sj... mittlere absolute Abweichung der Variable j (oder seine Standardabweichung)
2. Die Anzahl der Cluster
Keine Theorie zum Ermitteln der korrekten Anzahl
oft Hilt eine Visuelle Darstaellung (wenn 2-3 Dimensional), ev. vorherige PCA (od. ähnliche) Transformation
Kohonen VQ (Vector Quantization)
Algorithmus gleich zu K-Means
Idee:
Selektiere k Punkte (initale Clusterzentroiden)
Für die Beobachtung xi finde den nähesten Zentroiden (winner Seed); wird mit Sn beschrieben
Modifiziere Sn according to the formula:
Sn=Sn(1-L)+xiL
L...Lernkonstante (verringert sich während des Lernprozesses)
Wiederhole Schrtte 2 und 3 über alle Trainingsdaten
Wiederhole Schritte 2-4 für eine gegebene Anzahl an Iterationen
Kohonen SOM (Self Organizing Maps)
Idee:
selektiere k initiale Punkte (cluster zentroid) bilde sie auf 2D Map ab (siehe Grafik)
Für Beobachtungen xi finde winning Seed Sn
Modifiziere alle Zentroiden so:
Sj=Sj (1-K(j,n)L)+xiK(j,n)L
L.. Lernkostante (verringert sich während Training)
K(j,n) ... Funktion verringert mit steigender Entfernung auf der 2D Karte zwischen Sj i Sn Zentroiden (K(j,j)=1)
Wiederhole Schritte 2 und 3 für alle Trainingsbeobachtungen