dl4g
dl4g
dl4g
Kartei Details
Karten | 95 |
---|---|
Lernende | 28 |
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 24.01.2019 / 23.11.2023 |
Weblink |
https://card2brain.ch/box/20190124_dl4g
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was bedeutet Training? (ML)
Minimierung einer Kostenfunktion auf den Trainingsdaten durch Anpassen der Modellparameter
Was bedeutet Testing? (ML)
Leistung des Modells durch eine Auswertungsfunktion auf unbekannten Daten berechnen
Wie kann das Modell überprüft werden? (ML)
Nur eine Auswertung auf unbekannten Daten ermöglicht es die Leistung des Modells festzustellen
Was ist k-NN?
• steht für K-Nearest Neighbors
• ist ein sehr einfach Machine Learning Algorithmus
• bei k=1 wird das Label des nächstgelegenen Trainingspunkt verwendet
• bei k>1 findet ein Mehrheitsbeschluss der nächsten k Nachbarn statt
Was sind Hyperparameter?
• Entscheidung die vom Menschen getroffen werden
• Beispielsweise Angleichung an eine lineare Funktion
Was sind Beispiele für Hyperparameter?
• Anzahl Nachbarn bei k-NN
• Regularisierung der Paramater
• Kernel einer Support Vektoren Maschine
• Baumtiefe und selection-policy im Entscheidungsbaum
• Anzahl Layers, Neuronen, Aktivierungsfunktion, Dropout bei Deep Learning
Wie sieht ein komplizierter Auswertungsvorgang aus? (ML)
• Daten aufteilen in 60% Train, 20% Validation und 20% Test
• Über alle interessanten Hyperparameter-Konfigurationen iterieren
• Modell anhand der ausgewählten Hyperparameter auf den Trainingsdaten trainieren
• Modell auf dem Validation-Set überprüfen und Leistung messen
• Modell mit der besten Leistung auswählen und auf den Testdaten Leistung messen
=> Dieser Variante benötigt recht viele Daten
Was ist das Ziel von Cross Validation?
• Falls zu wenig Daten vorhanden
• Aufteile in 80% Training und 20% Test
• Training aufteilen in k Folds (z.B 10)
• jeder Fold ist einmal das Validation-Set
• die restlichen Folds werden als Trainingsdaten verwendet
• schlussendlich Mittelwert über alle Folds
Was ist das Ziel bei der Aufteilung in Test- und Trainings-Set?
gleiche Verteilungen über Test und Trainings-Set
Was sollte man über Learning Curves wissen?
• wenn Kurven weit auseinander, dann hilft es wenn man mehr Daten nutzt
• wenn Kurven parallel sind, dann bringt es ziemlich sicher nichts
Welche Möglichkeiten gibt es bei einer Confusion Matrix für einen Binary Classifiers?
TN = true-negative
FP = false-positive
FN = false-negative
TP = true-positive
Vorhersage ----------- Wahr ---------- Falsch
Realität: Wahr---------[ TP ] ------------ [ FN ]
Realität: Falsch -------[ FP ] ----------- [ TN ]
Wie wird die Accuracy and Error Rate berechnet?
Accuracy = (TP + TN) / Total
Error Rate = (FP + FN) / Total = 1 - Accuracy
Was ist die Definition von Machie Learning?
• A computer program is said to learn from experience E
• with respect to some class of tasks T and performance measure P
• if its performance at tasks in T, as measured by P, improves with experience E
Was ist T beim jassen? (ML)
tasks (T)
– Trumpf auswählen
– Karte uswählen
– Werte der Karten
– Punkte im Spiel
Was ist P beim Jassen? (ML)
measure (P)
– Anzahl Gewinne / Punkte
– Vergleich mit Daten
Was wäre E beim Jassen? (ML)
experience (E)
– spielen
– Daten lesen
Welche zwei Task-Typen werden unterschieden? (ML)
Regression & Classification
Aus welchen 3 Teilen besteht ein feed forward network?
• Input Layer
• Hidden Layer
• Output Layer
Was beinhaltet ein Knoten eines Netzwerk?
• Inputs (x1, x2, . . . )
• Internen Parameter (Θ)
• Funktion die den Output berechnet basierend auf den Parameter
Was ist eine Epoche?
1 Training des gesamten Datensets
Welche Aktivierungsfunktionen gibt es?
• Sigmoid für eine binäre Klassifizierung
• relu für Nodes innerhalb des Netzwerk
• Aktivierungsfunktion sollte nicht linear sein
Was ist eine Kostenfunktion?
• ist die Funktion welche durch das Lernen minimiert werden soll
• häufig wird eine Likelihood-Funktion verwendet
Wie sollten bei Multi-class Problemen beachtet werden?
• 1-hot encoded Arrays für Labels
• letzter Layer mit softmax Funktion (für Normierung)
Was ist ein neuronales Netzwerk?
• besteht aus mathematischen Knoten
• Knoten haben Inputs und Outputs
• Knoten sind organisiert in Layers
• Knoten berechnen aus Input und Parameter einen Output
• Knoten haben lineare Funktion (Gewicht, Bias, Input)
• auf Funktion wird Aktivierungsfunktion angwendet (sigmoid, relu)
Wie berechnet eine neuronales Netzwerk das Resultat?
• Parameter werden während dem Training definiert
• danach nur noch Layer für Layer durchrechnen
Was ist eine Loss Funktion?
• grundsätzlich eine Fehlerfunktion
• die Funktion, welche während dem Training minimiert werden soll
Wie wird ein neuronales Netzwerk trainiert?
• Differenz zwischen berechnetem Wert und gegebenem Label
• Differenzen werden versucht zu minimieren
Wie kann das Training auf seine Wirksamkeit überprüft werden?
• benötigt eine Metrik und Testdaten
• beispielsweise überprüfen der Accurency
Was ist der Vorteil eines Deep neuronal networks?
• Features werden automatisch berechnet
Was ist das Problem mit der optimalen Kapazität? (NN)
• mit mehr Trainingsdaten wird der Fehler kleiner
• der Fehler der Testdaten wird dann jedoch immer grössere
Welche 3 Klassen gibt es bei VOC challenges?
• Klassifizierung: Enthält das Bild ein Objekt einer Klasse?
• Erkennung: Welche Klasse haben die Objekte eines Bildes?
• Sementierung: zu welcher Klasse gehört ein einzelnes Pixel?
Was ist die Funktion einer Support Vector Maschine?
• berechnet Features und Deskriptoren
• berechnet eine Art Fingerabdruck auf dem Bild
Was ist die Idee hinter einem Residual Network?
• Layer darf das Ergebniss nicht verschlechtern
• falls Layer nichts bewirkt einfach ignorieren
Welche Layer-Typen gibt es? (NN)
• Dense / Fully-Connected
– jeder Knoten ist mit jedem Knoten aus dem Layer davor verbunden
– jede Verbindung hat ein Gewicht
• Convolutional
– Knoten ist nur mit einem Teil der vorherigen Knoten verbunden
– immer die gleichen Gewichtungen verwenden
• Polling
– Berechnet das Maximum oder den Durchschnitt einer Region
– macht das Bild kleiner
Was ist Regularisierung?
• zur loss-Funktion wird eine penatly-Funktion addiert
• penatly-Funktion ist abhängig von den Gewichten
Was ist L2 Regularisierung?
• Quadrat der Gewichte zur loss-Funktion addieren
• Ensemble method:
– Abstimmung von mehreren separat trainierten Netzwerken
• Dropout:
– Zufällig Knoten mit 0 multiplizieren
– Netzwerk muss mehrere Wege finden
• Early stopping:
– Stoppen wenn Fehler des Validation-Sets beginnt zu wachsen
– Lernen der benötigten Anzahl Trainingsschritte (Hyperparameter)
Was ist der Unterschied zwischen einem non-deep und deep neural network?
• deep neural network erkennt die Features selbständig
• es werden nur noch die Daten benötigt
Was ist ein convolutional neural networks?
• es sind nicht alle Knoten mit dem vorherigen Layer verbunden
• die Gewichte werden für jede Position geteilt