ML
ML
ML
Fichier Détails
Cartes-fiches | 32 |
---|---|
Langue | Deutsch |
Catégorie | Informatique |
Niveau | Université |
Crée / Actualisé | 12.07.2018 / 12.07.2018 |
Lien de web |
https://card2brain.ch/box/20180712_ml
|
Intégrer |
<iframe src="https://card2brain.ch/box/20180712_ml/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Créer ou copier des fichiers d'apprentissage
Avec un upgrade tu peux créer ou copier des fichiers d'apprentissage sans limite et utiliser de nombreuses fonctions supplémentaires.
Connecte-toi pour voir toutes les cartes.
Was ist die A posteriori Wahrscheinlichkeit?:
Eine Wahrscheinlichkeit, die sich auf einen Zustand nach einem durchgeführten Verfahren bezieht
(z. B. nach einem diagnostischen Test oder einem Screening). Der Berechnung liegt das Bayes-Theorem zugrunde.
Die a-posteriori-Wahrscheinlichkeit hängt ab von der a-priori-Wahrscheinlichkeit sowie der Sensitivität und der Spezifität.
Beschreibe die grobe Funktionsweise von Neuronalen Netzen:
- Funktionsweise (grob)
- Nachbau menschlicher Nervenzellen
- Eine oder mehrere binäre Eingaben
- Eine binäre Ausgabe
- Neuron feuert, wenn Anzahl Eingänge anliegen
- -> Nachbildung logischer Funktionen
Was ist ein Perceptron (4)
- Verwendet mehrere Linear Threshold Units (LTUs)
- Ein Perceptron = lineare Regression
- Input: beliebige numerische Werte
- Anwendung einer Treppenfunktion auf die Summe gewichteter Eingabewerte
Nenne 2 Treppenfunktionen zur Aktivierung:
- Heaviside -> Werte (0,1)
- Signum -> Werte (-1,0,1)
Beschreibe die Lernregel bei Perceptrons (Hebbian Lerning)
- Verbindung verstärkt sich, wenn Neuron A Neuron B oft stimuliert
Nenne eine Lernregel für mehrlagige Perceptrons (1)
- Backpropagation Algorithmus
Wie funktioniert der Ablauf des Lernens bei neuronalen Netzen (6):
- Netz erzeugt für einen Eingabevektor eine Ausgabe
- Vergleich Ausgabe mit gewünschter Ausgabe -> Berechnung des Fehler
- Ausgabe abhängig von Gewichten (Fehlerfunktion = Funktion der Gewichte)
- Suche nach optimalen Gewichten zur Minimierung des Fehlers des Netzes
- Suche nach dem Minimum der Fehlerfunktion
- -> Gradientenabstieg
Wie funktioniert der Backpropagation Algorithmus (6):
- „Gradientenabstieg mit reverse mode
- Klassifikation mit Trainingsdatensatz und aktuellen
- Vergleich Ausgabe mit Trainingslabels (Bestimmung Fehler)
- Fehler wird rückwärts durch Schichten geführt
- Man erkennt, welche Verbindung welchen Fehleranteil verursacht
- Gewichte werden entsprechend aktualisiert
Was ist die Voraussetzung für den Backpropagation Algorithmus? (1):
- Aktivierungsfunktion sind ableitbare Funktionen
Welche Probleme gibt es beim Training tiefer Netze? (4):
- Gradienten können sehr klein werden (-> kein Trainingsfortschritt mehr)
- Gradienten können auch sehr groß werden
- Bei großen Netzen viele freie Parameter (Gefahr des Overfittings)
- Lange Trainingsdauer, schwer einzuschätzen
Beschreibe die Klassifikationsgüte binärer Klassifikatoren 4+3:
- TP: true positives
- TN: true negatives
- FP: false positives
- FN: false negatives
- Daraus abgeleitet
- True positive rate (TP/P)
- True negative rate (TN/N)
- Precision (TP/AP)
Nenne 3 Schichttypen neuraler Netzwerke (NN):
- Fully-connected (bisher)
- Convolutional Layers (Faltungsschichten)
- Pooling Layers (Sammelschichten)
Wie funktioniert Clustering?
- Unüberwachtes Lernen
- Meist ist die Zahl der Klassen vorgegeben
- Verwendung eines gaußschen Mischmodells (Gaussian Mixture Model, GMM), um die Gesamtheit der Daten zu beschreiben.
- Clustering mit Gaussian Mixture Model
- ein GMM anpassen auf die Gesamtheit der Merkmalsvektoren, Vektoren die zu einer Gaußkomponente gehören, bilden ein Cluster.
- diese Cluster können anschließend auch für die Klassifikation verwendet werden
Welche Nachteile haben Histogramme?
- Ortinformationen gehen verloren
- sehr stark von der Beleuchtung abhängig
Warum soll für den Test nie der selbe Datensatz benutzt werden wie für das Training?
unabhängiges Validieren der Daten nicht mehr möglich
Was ist ein Histogramm?:
Ein Histogramm einer Menge von Merkmalsvektoren ist ein Vektor x = {x1,x2,…} der die Verteilung dieser Merkmalsvektoren in einem unterteilten Raum darstellt
Nenne 2 Normen in Vektorräumen
- Euklidische Norm:
- Minkowski Norm:
- mit p=1 Manhattan Distanz, p=2 euklidische Norm, p=unendlich Maximaldistanz
Nenne und beschreibe 3 Fehlerquellen bei Klassifikatormodellen:
- Datenfehler: fehler in Trainingsdaten (Rauschen, falsche Labels)
- Bias: Fehler durch falsche Annahmen
- Varianz: hohe Auswirkungen bei kleinen Schwankungen (Gefahr des Overfittings)
Nenne und Beschreibe 3 Arten des Gradientenabstiegs:
- Batch Gradient Descent
- Berechnung der Gradienten aller Trainingsvektoren (langsam)
- Stochastic Gradient Descent
- Berechnung der Gradienten mit zufälligem Trainingsvektor
- Mini-Batch-Gradient-Descent
- Berechnung der Gradienten mit einem zufällig gezogenem Subset aller Trainingsvektoren
Nenne 5 Kriterien zur Datenbeschaffenheit:
- Ausreichend
- Repräsentative Daten (alle Klassen, alle
- Relevante Eigenschaften müssen ersichtlich sein (gute
- Gute Qualität der Daten (Datensätze vollständig, keine falschen
- Wertebereiche der einzelnen Merkmale passend (evtl. müssen Merkmale skaliert werden)
Was ist Textur + Merkmale (4):
- Beschreibt die Struktur einer Oberfläche
- Abhängig von Lichtverhältnissen, Sichtwinkel und Abstand
- Lokale und globale Anordnung der Pixel wichtig
- Meist nur Betrachtung der Grauwerte, evtl. auch der Farbe
Beschreibe die Haralick Texture Features
- Basiert auf Co-occurence Matrix der Grauwert eines
- Beschreibt benachbarte Auftreten von Grauwerten in einer bestimmten Nachbarschaft
Wie ist der Ablauf bei den Harlick Texture Features?
- Input ist eine Matrix
- Schaue wie oft Grauwert nebeneinander liegt
- Dies wird mit 4 Matrizen gemacht (0,45,90,135 Grad)
- Für 14 Merkmale gibt es Algorithmen, die man auf die Matrizen anwenden muss
Wie funktionieren Local Binary Patterns?
- Haben zirkular umliegende Pixel eines Pixels größere Grauwerte
- Jeder umliegende Pixel wird mit dem aktuellen verglichen
- Wenn Pixel größerer Grauwert, dann 1 reinschreiben, sonst 0
- Bitmuster (z.B. edge) einer bestimmten Umgebung kann man nun im Bild markieren
Wie ist der Ablauf beim Canny Edge Detector?
- Bild glätten (lokale Unebenheiten entfernen)
- Grauwertgradienten im Bild berechnen; Faltung des Bildes mit Sobel Filter
- Bestimmung der Gradientenstärke und Richtung der Gradienten (nur 4 Richtungen)
- Unterdrückung von Pixeln, die in der Gradientenrichtung kein Maximum bilden (=Non Maximum Supression)
- -> Kandidaten für Pixel Kanten
- Schwellwertansatz (Schwache Kanten entfernen)
Nenne 3 Interest Point Detectoren:
- Laplacian of Gaussian (LoG) dectector
- Hessian Laplace Detector
- Difference of Gaussian
Beschreibe den Ablauf bei diesen Interest Point Detectoren (4)?
- Methode: Grauwertgradienten im Bild betrachten
- Bestimmung durch Ableiten
- Anwendung des Gauss Filters mit verschiedenen Skalen
- -> größte normalisierte Antwort könnte Interest Point sein
Beschreibe den Ablauf bei SIFT-Features (5):
- Bestimmung Hauptgradienten der Region, damit Rotation des Bildausschnittes in Normposition
- Unterteilung der Region in 4x4 Quadranten
- Bestimmung der Gradientenrichtung in jedem Quadranten an 4x4 Stellen
- Berechnung Histogramm der Gradientenrichtungen pro Quadrant in 8 Richtungen
- Concat der Histogrammeinträge -> Featurevektor hat 4x4x8 = 128 Einträge
Beschreibe zwei Varianten bei SIFT Features:
- GLOH (Gradient Location and Orientation
- Verwendet Polarkoordinaten bei der Erstellung der Histogramme
- SURF (Speed Up Robust Features)
- Statt Gaußfilter warden MIttelwertfilter
- Berechnung dann mit Integralbildern
Nenne 4 Vorteile Merkmalsselektion:
- Vereinfachung des Modells (Vermeidung Overfitting)
- Reduzierte Datenmenge
- Reduzierte Trainingszeiten
- Vermeidung des „Curse of Dimensionality“
-
- 1 / 32
-