Set of flashcards Datamining (Page 2 of 2)

Flashcards	58
Language	Deutsch
Category	Computer Science
Level	University
Created / Updated	02.09.2013 / 07.02.2018
Weblink	https://card2brain.ch/box/datamining
Embed	<iframe src="https://card2brain.ch/box/datamining/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Datenwiederverwendungsmöglichkeiten

Standardansatz (Anzahl Datensätze > Anzahl Dimension)

Teilung in training/validierung und testMenge (aus dieser Menge wird der EPE (Estimation of Expected Prediction Error) ermittelt

Anzahl<Dimension Fall --> nicht genug Daten zum Validieren und Testen:

K-Fold cross validation oder leave one out crossvalidation

Performanz des Klassifizierers messen

Konfusionsmatrix aus aktuellen und Prognosewert (siehe Grafik oben)

oder ROC (Receiver Opterating Characteristics)-Kurve zeichnen - Grafik unten.

jeder Punkt repräsentiert eine cut-off Wahrscheinlichkeit

bis 0.5 Wertloses Modell, ab 1 perfekter Klassifizierer

Fluch der Dimensionalität

in höheren Dimensionraum gibt es weniger Trainingsdaten im Eingangsraum, daher werden andere Data-Mining Techniken wie Clustering, K-nearest Neighbor angewandt

Principal Components Analysis (PCA) - Idee

Transformiere die Originalmenge von p Variablen (von n Beobachtungen) zu einer unkorrelierten Menge von p latenten Variablen = Principal Components

Varianz der Daten ist den ersten latenten Variablen absteigen nach deren Varianz geordnet vorhanden

Anwendung:

Technik zum Analysieren von Hochdimensionalen Daten

Erste Principal Component werden benutzt um die Anzahl der Variablen in Predictive Modeling zu reduzieren

PCA - Technische Details

von p numerischen Variabeln können p Pricinipal Components (gleiche Anzahl) berechnet werden.

Jeder PC ist eine Linearkombination der Originalvariablen, deren Koeffizient den Eigenvektor ihere Korrelations (Kovarianz)matrix ensprechen.

Eigenvektoren werden üblicherweise als einheitlänge genommen

PC werden absteigend nach derem Eigenwerten sortiert, was deren Varianz entspricht.

Clustermethoden hierarchisch - nicht hierararisch

Nicht-Hierarische Methoden:

K-Means Clustering
nicht-deterministisch, O(n) Anzahl der Beobachtungen

Hierarische Methoden

Agglomerative (kleine Cluster zusammenhängen)
Divisive (große Cluster splitten)
Deterministische Methoden
O(n²) bis O(n³) - abhängig von der Methode (bzw. Intercluster Distanz)

Clustermethoden Anmerkungen

Clustering von großen Datenmengen: K-Means, wenn hierarisch zuerst teilung mittel k-means in 50 Cluster dann hiererachisch clustern

Consensus Clustering: Erforschung "echter" Cluster in Daten - analysiere Stabilität der Ergebnisse mit verrauschten Daten

K-Means - Algorithmus

Ergebnis: k seperierte Cluster

Anforderung: Angabe von k nötig; Problem: ist vorab zu bestimmen

HIerarchisches Clustering - Notation

Bezeichnungen:

x_i....Observationen (i=1..n)
C_k.. Cluster
G...aktuelle Anzahl an Cluster
D_KL..Distanz zwischen clusters C_K and C_L

Clusterdistanz D_KL - linkage Funktion (versch.Definitionen verfügbar, Ergebnis hängt von D_KL ab. - siehe Grafik

Algorithmus (Agglomeratives Hierarchisches Clustering)

C_k={x_k], k=1..n, G=n
finde K, L sodaß D_KL = min D_u, 1<=I,J>=G

Ergebnis: Hierarchie von Cluster-->Dendrogramm

Definition von Distanzen zwischen Cluster

Verschiedene Definitionen:

Average Linkage
Single Linkage
Complete Linkage
Density Linkage
Ward's minimum Varianz Methode
---

Average Linkage

Tendiert dazu Cluster mit geringer Varianz zu clustern
Cluster tendieren dazu ähnliche Varianz zu haben

Notation:

xi – observations, i=1..n
–
d(x,y) – distance between observations (Euclidean distance assumed from now on)
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster

Complete Linkage

Resultierende Cluster tendieren dazu, ähnliche Durchmesser zu haben.

Notation:
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster

Single Linkage

Tendieren dazu, langestreckte/längliche Cluster zu bilden, mit unregelmäßigen Umriß

Notation:
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster

Wards minimum Varianz Methode

Tendiert dazu kleine Cluster zusammenzuhängen und produziert Cluster mit gleicher Anzahl an Observationen

Notation
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
Ck – clusters
–
NK – number of observations in cluster CK
–
DKL – distance between clusters CK and CL
–
meanCK – mean observation in cluster CK
–
WK= Σ |xi-meanCK|2 xi∈CK – variance in cluster
–
BKL=WM-WK-WL where CM=CK∪CL

Density Linkage

es wird ein single-linkage unter Verwendung des Maß d* realisiert

ermöglicht das erforschen von cluster mit unregelmäßigem Umriß

Notation:
–
xi – observations, i=1..n
–
d(x,y) – distance between observations
–
r – a fixed constant
–
f(x) – proportion of observations within sphere centered at x with radius r divided by the volume of the sphere (measure of density of points near observation x)

Clustering Methoden - letzte Anmerkungen

1. Standardisierung von Variablen vor dem Clustering

oft nötig, sonst tenden Variablen mit großer Varianz dazu den Cluster zu dominieren

Das Standardisierungsmaß z_ij wird oft als z-Score berechnet (siehe Grafik)

x_ij ..... Originalmaß der Beobachtung i und variable j

mü_j ... Mittelwert der Variable j

sj... mittlere absolute Abweichung der Variable j (oder seine Standardabweichung)

2. Die Anzahl der Cluster

Keine Theorie zum Ermitteln der korrekten Anzahl

oft Hilt eine Visuelle Darstaellung (wenn 2-3 Dimensional), ev. vorherige PCA (od. ähnliche) Transformation

Kohonen VQ (Vector Quantization)

Algorithmus gleich zu K-Means

Idee:

Selektiere k Punkte (initale Clusterzentroiden)
Für die Beobachtung x_i finde den nähesten Zentroiden (winner Seed); wird mit S_n beschrieben

Modifiziere S_n according to the formula:

S_n=S_n(1-L)+x_iL

L...Lernkonstante (verringert sich während des Lernprozesses)

Wiederhole Schrtte 2 und 3 über alle Trainingsdaten

Wiederhole Schritte 2-4 für eine gegebene Anzahl an Iterationen

Kohonen SOM (Self Organizing Maps)

Idee:

selektiere k initiale Punkte (cluster zentroid) bilde sie auf 2D Map ab (siehe Grafik)

Für Beobachtungen xi finde winning Seed S_n

Modifiziere alle Zentroiden so:

Sj=Sj (1-K(j,n)L)+xiK(j,n)L

L.. Lernkostante (verringert sich während Training)
K(j,n) ... Funktion verringert mit steigender Entfernung auf der 2D Karte zwischen Sj i Sn Zentroiden (K(j,j)=1)

Wiederhole Schritte 2 und 3 für alle Trainingsbeobachtungen

Datamining

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google