ML

ML

ML


Set of flashcards Details

Flashcards 32
Language Deutsch
Category Computer Science
Level University
Created / Updated 12.07.2018 / 12.07.2018
Weblink
https://card2brain.ch/box/20180712_ml
Embed
<iframe src="https://card2brain.ch/box/20180712_ml/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist ein Histogramm?:

Ein Histogramm einer Menge von Merkmalsvektoren ist ein Vektor x = {x1,x2,…} der die Verteilung dieser Merkmalsvektoren in einem unterteilten Raum darstellt

Nenne 2 Normen in Vektorräumen

  • Euklidische Norm:
  • Minkowski Norm:
  • mit p=1 Manhattan Distanz, p=2 euklidische Norm, p=unendlich Maximaldistanz

Nenne und beschreibe 3 Fehlerquellen bei Klassifikatormodellen:

  • Datenfehler: fehler in Trainingsdaten (Rauschen, falsche Labels)
  • Bias: Fehler durch falsche Annahmen
  • Varianz: hohe Auswirkungen bei kleinen Schwankungen (Gefahr des Overfittings)

Nenne und Beschreibe 3 Arten des Gradientenabstiegs:

  • Batch Gradient Descent
    • Berechnung der Gradienten aller Trainingsvektoren (langsam)
  •     Stochastic Gradient Descent
    • Berechnung der Gradienten mit zufälligem Trainingsvektor
  •     Mini-Batch-Gradient-Descent
    • Berechnung der Gradienten mit einem zufällig gezogenem Subset aller Trainingsvektoren

Nenne 5 Kriterien zur Datenbeschaffenheit:

  • Ausreichend
  • Repräsentative Daten (alle Klassen, alle
  • Relevante Eigenschaften müssen ersichtlich sein (gute
  • Gute Qualität der Daten (Datensätze vollständig, keine falschen
  • Wertebereiche der einzelnen Merkmale passend (evtl. müssen Merkmale skaliert werden)

Was ist Textur + Merkmale (4):

  • Beschreibt die Struktur einer Oberfläche 
  • Abhängig von Lichtverhältnissen, Sichtwinkel und Abstand 
  • Lokale und globale Anordnung der Pixel wichtig
  • Meist nur Betrachtung der Grauwerte, evtl. auch der Farbe

Beschreibe die Haralick Texture Features

  • Basiert auf Co-occurence Matrix der Grauwert eines
  • Beschreibt benachbarte Auftreten von Grauwerten in einer bestimmten Nachbarschaft

Wie ist der Ablauf bei den Harlick Texture Features?
 

  • Input ist eine Matrix
  • Schaue wie oft Grauwert nebeneinander liegt
  • Dies wird mit 4 Matrizen gemacht (0,45,90,135 Grad)
  • Für 14 Merkmale gibt es Algorithmen, die man auf die Matrizen anwenden muss

Wie funktionieren Local Binary Patterns?
 

  • Haben zirkular umliegende Pixel eines Pixels größere Grauwerte
  • Jeder umliegende Pixel wird mit dem aktuellen verglichen
  • Wenn Pixel größerer Grauwert, dann 1 reinschreiben, sonst 0
  • Bitmuster (z.B. edge) einer bestimmten Umgebung kann man nun im Bild markieren

Wie ist der Ablauf beim Canny Edge Detector?

  • Bild glätten (lokale Unebenheiten entfernen)
  • Grauwertgradienten im Bild berechnen; Faltung des Bildes mit Sobel Filter
  • Bestimmung der Gradientenstärke und Richtung der Gradienten (nur 4 Richtungen)
  • Unterdrückung von Pixeln, die in der Gradientenrichtung kein Maximum bilden (=Non Maximum Supression)
  • -> Kandidaten für Pixel Kanten
  • Schwellwertansatz (Schwache Kanten entfernen)

Nenne 3 Interest Point Detectoren:
 

  •     Laplacian of Gaussian (LoG) dectector
  •     Hessian Laplace Detector
  •     Difference of Gaussian

Beschreibe den Ablauf bei diesen Interest Point Detectoren (4)?
 

  • Methode: Grauwertgradienten im Bild betrachten
  • Bestimmung durch Ableiten
  • Anwendung des Gauss Filters mit verschiedenen Skalen
  • -> größte normalisierte Antwort könnte Interest Point sein

Beschreibe den Ablauf bei SIFT-Features (5):
 

  • Bestimmung Hauptgradienten der Region, damit Rotation des Bildausschnittes in Normposition
  • Unterteilung der Region in 4x4 Quadranten
  • Bestimmung der Gradientenrichtung in jedem Quadranten an 4x4 Stellen
  • Berechnung Histogramm der Gradientenrichtungen pro Quadrant in 8 Richtungen 
  • Concat der Histogrammeinträge -> Featurevektor hat 4x4x8 = 128 Einträge

Beschreibe zwei Varianten bei SIFT Features:

  • GLOH (Gradient Location and Orientation
    • Verwendet Polarkoordinaten bei der Erstellung der Histogramme
  • SURF (Speed Up Robust Features)
    • Statt Gaußfilter warden MIttelwertfilter
    • Berechnung dann mit Integralbildern

Nenne 4 Vorteile Merkmalsselektion:
 

  •     Vereinfachung des Modells (Vermeidung Overfitting)
  •     Reduzierte Datenmenge
  •     Reduzierte Trainingszeiten
  •     Vermeidung des „Curse of Dimensionality“

Nenne die 5 Berechnungsschritte zur Hauptachsentransformation (5):
 

  • Berechnung des Mittelwerts aller Merkmalsvektoren
  • Abziehen des Mittelwertes von den Merkmalsvektoren (mittelwertfreie Merkmale)
  • Kovarianzmatrix der mittelwertfreien Merkmale berechnen (xx^T)
  • Eigenvektoren der Kovarianzmatrix berechnen (=neue Achsen)
  • Eigenwerte sind die Koordinaten eines Musters im neuen Koordinatensystem

Was ist die A Priori Wahrscheinlichkeit?:

Entspricht der Anfangswahrscheinlichkeit also einem Vorwissen. Wenn ich weiß, dass es doppelt so viele Autos wie Fährrader gibt.

Was ist die A posteriori Wahrscheinlichkeit?:
 

 

    Eine Wahrscheinlichkeit, die sich auf einen Zustand nach einem durchgeführten Verfahren bezieht
    (z. B. nach einem diagnostischen Test oder einem Screening). Der Berechnung liegt das Bayes-Theorem zugrunde.
    Die a-posteriori-Wahrscheinlichkeit hängt ab von der a-priori-Wahrscheinlichkeit sowie der Sensitivität und der Spezifität.

Beschreibe die grobe Funktionsweise von Neuronalen Netzen:
 

  •     Funktionsweise (grob)
  •     Nachbau menschlicher Nervenzellen
  •     Eine oder mehrere binäre Eingaben
  •     Eine binäre Ausgabe
  •     Neuron feuert, wenn Anzahl Eingänge anliegen
  •     -> Nachbildung logischer Funktionen

Was ist ein Perceptron (4)
 

  • Verwendet mehrere Linear Threshold Units (LTUs)
  • Ein Perceptron = lineare Regression
  • Input: beliebige numerische Werte
  • Anwendung einer Treppenfunktion auf die Summe gewichteter Eingabewerte

Nenne 2 Treppenfunktionen zur Aktivierung:
 

  •     Heaviside -> Werte (0,1)
  •     Signum -> Werte (-1,0,1)

Beschreibe die Lernregel bei Perceptrons (Hebbian Lerning)
 

  •     Verbindung verstärkt sich, wenn Neuron A Neuron B oft stimuliert

Nenne eine Lernregel für mehrlagige Perceptrons (1)
 

  •     Backpropagation Algorithmus

Wie funktioniert der Ablauf des Lernens bei neuronalen Netzen (6):

  • Netz erzeugt für einen Eingabevektor eine Ausgabe
  • Vergleich Ausgabe mit gewünschter Ausgabe -> Berechnung des Fehler
  • Ausgabe abhängig von Gewichten (Fehlerfunktion = Funktion der Gewichte)
  • Suche nach optimalen Gewichten zur Minimierung des Fehlers des Netzes
  • Suche nach dem Minimum der Fehlerfunktion
  • -> Gradientenabstieg

Wie funktioniert der Backpropagation Algorithmus (6):

  • „Gradientenabstieg mit reverse mode
  • Klassifikation mit Trainingsdatensatz und aktuellen
  • Vergleich Ausgabe mit Trainingslabels (Bestimmung Fehler)
  • Fehler wird rückwärts durch Schichten geführt
  • Man erkennt, welche Verbindung welchen Fehleranteil verursacht
  • Gewichte werden entsprechend aktualisiert

Was ist die Voraussetzung für den Backpropagation Algorithmus? (1):
 

  •     Aktivierungsfunktion sind ableitbare Funktionen

Welche Probleme gibt es beim Training tiefer Netze? (4):
 

  •     Gradienten können sehr klein werden (-> kein Trainingsfortschritt mehr)
  •     Gradienten können auch sehr groß werden
  •     Bei großen Netzen viele freie Parameter (Gefahr des Overfittings)
  •     Lange Trainingsdauer, schwer einzuschätzen

Beschreibe die Klassifikationsgüte binärer Klassifikatoren 4+3:
 

  •     TP: true positives
  •     TN: true negatives
  •     FP: false positives
  •     FN: false negatives
  •     Daraus abgeleitet
    • True positive rate (TP/P) 
    • True negative rate (TN/N) 
    • Precision (TP/AP)

Nenne 3 Schichttypen neuraler Netzwerke (NN):
 

  •     Fully-connected (bisher)
  •     Convolutional Layers (Faltungsschichten)
  •     Pooling Layers (Sammelschichten)

Wie funktioniert Clustering?

  • Unüberwachtes Lernen
  • Meist ist die Zahl der Klassen vorgegeben
  • Verwendung eines gaußschen Mischmodells (Gaussian Mixture Model, GMM), um die Gesamtheit der Daten zu beschreiben.
  • Clustering mit Gaussian Mixture Model
  • ein GMM anpassen auf die Gesamtheit der Merkmalsvektoren, Vektoren die zu einer Gaußkomponente gehören, bilden ein Cluster.
  • diese Cluster können anschließend auch für die Klassifikation verwendet werden

Welche Nachteile haben Histogramme?

  • Ortinformationen gehen verloren
  • sehr stark von der Beleuchtung abhängig

Warum soll für den Test nie der selbe Datensatz benutzt werden wie für das Training?

unabhängiges Validieren der Daten nicht mehr möglich