ML
ML
ML
Set of flashcards Details
Flashcards | 32 |
---|---|
Language | Deutsch |
Category | Computer Science |
Level | University |
Created / Updated | 12.07.2018 / 12.07.2018 |
Weblink |
https://card2brain.ch/box/20180712_ml
|
Embed |
<iframe src="https://card2brain.ch/box/20180712_ml/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was ist ein Histogramm?:
Ein Histogramm einer Menge von Merkmalsvektoren ist ein Vektor x = {x1,x2,…} der die Verteilung dieser Merkmalsvektoren in einem unterteilten Raum darstellt
Nenne 2 Normen in Vektorräumen
- Euklidische Norm:
- Minkowski Norm:
- mit p=1 Manhattan Distanz, p=2 euklidische Norm, p=unendlich Maximaldistanz
Nenne und beschreibe 3 Fehlerquellen bei Klassifikatormodellen:
- Datenfehler: fehler in Trainingsdaten (Rauschen, falsche Labels)
- Bias: Fehler durch falsche Annahmen
- Varianz: hohe Auswirkungen bei kleinen Schwankungen (Gefahr des Overfittings)
Nenne und Beschreibe 3 Arten des Gradientenabstiegs:
- Batch Gradient Descent
- Berechnung der Gradienten aller Trainingsvektoren (langsam)
- Stochastic Gradient Descent
- Berechnung der Gradienten mit zufälligem Trainingsvektor
- Mini-Batch-Gradient-Descent
- Berechnung der Gradienten mit einem zufällig gezogenem Subset aller Trainingsvektoren
Nenne 5 Kriterien zur Datenbeschaffenheit:
- Ausreichend
- Repräsentative Daten (alle Klassen, alle
- Relevante Eigenschaften müssen ersichtlich sein (gute
- Gute Qualität der Daten (Datensätze vollständig, keine falschen
- Wertebereiche der einzelnen Merkmale passend (evtl. müssen Merkmale skaliert werden)
Was ist Textur + Merkmale (4):
- Beschreibt die Struktur einer Oberfläche
- Abhängig von Lichtverhältnissen, Sichtwinkel und Abstand
- Lokale und globale Anordnung der Pixel wichtig
- Meist nur Betrachtung der Grauwerte, evtl. auch der Farbe
Beschreibe die Haralick Texture Features
- Basiert auf Co-occurence Matrix der Grauwert eines
- Beschreibt benachbarte Auftreten von Grauwerten in einer bestimmten Nachbarschaft
Wie ist der Ablauf bei den Harlick Texture Features?
- Input ist eine Matrix
- Schaue wie oft Grauwert nebeneinander liegt
- Dies wird mit 4 Matrizen gemacht (0,45,90,135 Grad)
- Für 14 Merkmale gibt es Algorithmen, die man auf die Matrizen anwenden muss
Wie funktionieren Local Binary Patterns?
- Haben zirkular umliegende Pixel eines Pixels größere Grauwerte
- Jeder umliegende Pixel wird mit dem aktuellen verglichen
- Wenn Pixel größerer Grauwert, dann 1 reinschreiben, sonst 0
- Bitmuster (z.B. edge) einer bestimmten Umgebung kann man nun im Bild markieren
Wie ist der Ablauf beim Canny Edge Detector?
- Bild glätten (lokale Unebenheiten entfernen)
- Grauwertgradienten im Bild berechnen; Faltung des Bildes mit Sobel Filter
- Bestimmung der Gradientenstärke und Richtung der Gradienten (nur 4 Richtungen)
- Unterdrückung von Pixeln, die in der Gradientenrichtung kein Maximum bilden (=Non Maximum Supression)
- -> Kandidaten für Pixel Kanten
- Schwellwertansatz (Schwache Kanten entfernen)
Nenne 3 Interest Point Detectoren:
- Laplacian of Gaussian (LoG) dectector
- Hessian Laplace Detector
- Difference of Gaussian
Beschreibe den Ablauf bei diesen Interest Point Detectoren (4)?
- Methode: Grauwertgradienten im Bild betrachten
- Bestimmung durch Ableiten
- Anwendung des Gauss Filters mit verschiedenen Skalen
- -> größte normalisierte Antwort könnte Interest Point sein
Beschreibe den Ablauf bei SIFT-Features (5):
- Bestimmung Hauptgradienten der Region, damit Rotation des Bildausschnittes in Normposition
- Unterteilung der Region in 4x4 Quadranten
- Bestimmung der Gradientenrichtung in jedem Quadranten an 4x4 Stellen
- Berechnung Histogramm der Gradientenrichtungen pro Quadrant in 8 Richtungen
- Concat der Histogrammeinträge -> Featurevektor hat 4x4x8 = 128 Einträge
Beschreibe zwei Varianten bei SIFT Features:
- GLOH (Gradient Location and Orientation
- Verwendet Polarkoordinaten bei der Erstellung der Histogramme
- SURF (Speed Up Robust Features)
- Statt Gaußfilter warden MIttelwertfilter
- Berechnung dann mit Integralbildern
Nenne 4 Vorteile Merkmalsselektion:
- Vereinfachung des Modells (Vermeidung Overfitting)
- Reduzierte Datenmenge
- Reduzierte Trainingszeiten
- Vermeidung des „Curse of Dimensionality“
Nenne die 5 Berechnungsschritte zur Hauptachsentransformation (5):
- Berechnung des Mittelwerts aller Merkmalsvektoren
- Abziehen des Mittelwertes von den Merkmalsvektoren (mittelwertfreie Merkmale)
- Kovarianzmatrix der mittelwertfreien Merkmale berechnen (xx^T)
- Eigenvektoren der Kovarianzmatrix berechnen (=neue Achsen)
- Eigenwerte sind die Koordinaten eines Musters im neuen Koordinatensystem
Was ist die A Priori Wahrscheinlichkeit?:
Entspricht der Anfangswahrscheinlichkeit also einem Vorwissen. Wenn ich weiß, dass es doppelt so viele Autos wie Fährrader gibt.
Was ist die A posteriori Wahrscheinlichkeit?:
Eine Wahrscheinlichkeit, die sich auf einen Zustand nach einem durchgeführten Verfahren bezieht
(z. B. nach einem diagnostischen Test oder einem Screening). Der Berechnung liegt das Bayes-Theorem zugrunde.
Die a-posteriori-Wahrscheinlichkeit hängt ab von der a-priori-Wahrscheinlichkeit sowie der Sensitivität und der Spezifität.
Beschreibe die grobe Funktionsweise von Neuronalen Netzen:
- Funktionsweise (grob)
- Nachbau menschlicher Nervenzellen
- Eine oder mehrere binäre Eingaben
- Eine binäre Ausgabe
- Neuron feuert, wenn Anzahl Eingänge anliegen
- -> Nachbildung logischer Funktionen
Was ist ein Perceptron (4)
- Verwendet mehrere Linear Threshold Units (LTUs)
- Ein Perceptron = lineare Regression
- Input: beliebige numerische Werte
- Anwendung einer Treppenfunktion auf die Summe gewichteter Eingabewerte
Nenne 2 Treppenfunktionen zur Aktivierung:
- Heaviside -> Werte (0,1)
- Signum -> Werte (-1,0,1)
Beschreibe die Lernregel bei Perceptrons (Hebbian Lerning)
- Verbindung verstärkt sich, wenn Neuron A Neuron B oft stimuliert
Nenne eine Lernregel für mehrlagige Perceptrons (1)
- Backpropagation Algorithmus
Wie funktioniert der Ablauf des Lernens bei neuronalen Netzen (6):
- Netz erzeugt für einen Eingabevektor eine Ausgabe
- Vergleich Ausgabe mit gewünschter Ausgabe -> Berechnung des Fehler
- Ausgabe abhängig von Gewichten (Fehlerfunktion = Funktion der Gewichte)
- Suche nach optimalen Gewichten zur Minimierung des Fehlers des Netzes
- Suche nach dem Minimum der Fehlerfunktion
- -> Gradientenabstieg
Wie funktioniert der Backpropagation Algorithmus (6):
- „Gradientenabstieg mit reverse mode
- Klassifikation mit Trainingsdatensatz und aktuellen
- Vergleich Ausgabe mit Trainingslabels (Bestimmung Fehler)
- Fehler wird rückwärts durch Schichten geführt
- Man erkennt, welche Verbindung welchen Fehleranteil verursacht
- Gewichte werden entsprechend aktualisiert
Was ist die Voraussetzung für den Backpropagation Algorithmus? (1):
- Aktivierungsfunktion sind ableitbare Funktionen
Welche Probleme gibt es beim Training tiefer Netze? (4):
- Gradienten können sehr klein werden (-> kein Trainingsfortschritt mehr)
- Gradienten können auch sehr groß werden
- Bei großen Netzen viele freie Parameter (Gefahr des Overfittings)
- Lange Trainingsdauer, schwer einzuschätzen
Beschreibe die Klassifikationsgüte binärer Klassifikatoren 4+3:
- TP: true positives
- TN: true negatives
- FP: false positives
- FN: false negatives
- Daraus abgeleitet
- True positive rate (TP/P)
- True negative rate (TN/N)
- Precision (TP/AP)
Nenne 3 Schichttypen neuraler Netzwerke (NN):
- Fully-connected (bisher)
- Convolutional Layers (Faltungsschichten)
- Pooling Layers (Sammelschichten)
Wie funktioniert Clustering?
- Unüberwachtes Lernen
- Meist ist die Zahl der Klassen vorgegeben
- Verwendung eines gaußschen Mischmodells (Gaussian Mixture Model, GMM), um die Gesamtheit der Daten zu beschreiben.
- Clustering mit Gaussian Mixture Model
- ein GMM anpassen auf die Gesamtheit der Merkmalsvektoren, Vektoren die zu einer Gaußkomponente gehören, bilden ein Cluster.
- diese Cluster können anschließend auch für die Klassifikation verwendet werden
Welche Nachteile haben Histogramme?
- Ortinformationen gehen verloren
- sehr stark von der Beleuchtung abhängig
Warum soll für den Test nie der selbe Datensatz benutzt werden wie für das Training?
unabhängiges Validieren der Daten nicht mehr möglich