HSLU DL4G HS20
Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi
Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi
Kartei Details
Karten | 124 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 22.01.2021 / 09.01.2023 |
Weblink |
https://card2brain.ch/box/20210122_hslu_dl4g_hs20
|
Einbinden |
<iframe src="https://card2brain.ch/box/20210122_hslu_dl4g_hs20/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Wie wird ein neuronales Netzwerk trainiert?
- Differenz zwischen berechnetem Wert und gegebenem Label
- Es wird versucht, Differenzen zu minimieren
Wie kann das Training auf seine Wirksamkeit überprüft werden?
- Benötigt eine Metrik und Testdaten
- Zum Beispiel: Überprüfen der Accuracy
Was ist der Vorteil eines Deep Neuronal Networks?
Features werden automatisch berechnet
Was ist das Problem mit der optimalen Kapatität? (NN)
- Mit mehr Trainingsdaten wird der Fehler kleiner
- Der Fehler der Testdaten wird dann jedoch immer grösser
Welche 3 Klassen gibt es bei VOC Challenges?
- Klassifizierung: Enthält das Bild ein Objekt einer Klasse?
- Erkennung: Welche Klasse haben die Objekte eines BIldes?
- Segmentierung: zu welcher Klasse gehört ein einzelnes Pixel?
Was ist die Funktion einer Support Vector Machine?
- Berechnet Features und Deskriptoren
- Berechnet eine Art Fingerabdruck auf dem Bild
Was ist die Idee hinter einem Residual Network?
- Layer darf das Ergebnis nicht verschlechtern
- Falls Layer nichts bewirkt, einfach ignorieren
Welche Layer-Typen gibt es? (NN)
- Dense / Fully-Connected
- Convolutional
- Polling
Was zeichnet den Dense / Fully-Connected Layer aus?
- Jeder Knoten ist mit jedem Knotem aus dem Layer davor verbunden
- Jede Verbindung hat ein Gewicht
Was zeichnet den Convolutional Layer aus?
- Knoten ist nur mit einem Teil der vorherigen Knoten verbunden
- Immer die gleichen Gewichtungen verwenden
Was zeichnet den Polling Layer aus?
- Berechnet das Maximum oder den Durchschnitt einer Region
- Macht das Bild kleiner
Wie funktioniert Regularisierung?
- Zur Loss-Funktion wird eine Penalty-Funktion addiert
- Penalty-Funktion ist abhängig von den Gewichten
Was ist L2-Regularisierung?
Quadrat der Gewichte zur Loss-Funktion addieren
Welche Regularisierungs-Methoden gibt es?
- L2
- Ensemble Method
- Dropout
- Early Stopping
Was ist Ensemble Method Regularisierung
Abstimmung von mehreren separat trainierten Netzwerken
Was ist Dropout Regularisierung
- Zufällige Knoten mit 0 multiplizieren
- Netzwerk muss mehrere Wege finden
Was ist Early Stopping Regularisierung
- Stoppen, wenn Fehler des Validation-Sets zu wachsen beginnt
- Lernen der benötigten Anzahl Trainingsschritte (Hyperparameter)
Was ist der Unterschied zwischen einem Non-Deep und Deep Neural Network?
- Deep Neural Network erkennt die Features selbstständig
- Es werden nur noch die Daten benötigt
Was ist ein Convolutional Neural Network?
- Es sind nicht alle Knoten mit dem vorherigen Layer verbunden
- Die Gewichte werden für jede Position geteilt
Was bedeutet Regularisierung und wieso wird es gebraucht?
- Penalty auf den Gewichten
- Zum Beispiel: Quadrate der Gewichte zur Loss-Funktion addieren
- Um eine glättere Kurve zu bekommen
- Verhindert Overfitting
Was bedeutet Dropout und wieso wird es gebraucht? (RL)
- Verwirft zufällig Knoten (setzt sie auf 0)
- Zwingt das Netzwerk, Alternativen zu finden
- Gibt ein stabileres Netzwerk
Was ist die Idee hinter Inception
Mehrere Layer nebeneinander und dann addieren
Was ist die Idee hinter Res-Net?
- Shortcut zwischen einzelnen Knoten
- Einfacheres Lernen von komplizierten Netzwerken
Was ist Reinforcement Learning?
- Ziel: Reward maximieren
- Reward kann durch Aktionen verändert werden
- Aktionen beeinflussen die Umgebung
Was ist Reinforcement Learning nicht?
- Supervised Learning: es gibt keinen Supervisor, der sagt, was richtig ist
- Unsupervised Learning: es werden auch keine Strukturen gesucht
Was sind die Eigenschaften von Reinforcement Learning?
- Verzögertes Feedback
- Zeit ist relevant
- Aktionen beeinflussen die Umgebung und die Daten
Was ist ein Reward
Ein Reward Rt ist ei Feedback, welches angibt, wie gut sich der Agent zum Zeitpunkt t verhält.
Welche 5 Arten von RL-Agenten gibt es?
- Value Based: no policy (implicit), value function
- Policy Based: policy, no value function
- Actor Critic: policy, value function
- Model Free: policy and/or value function, no model
- Model: policy and/or value function, model
Beschreiben Sie die verschiedenen Varianten von Greedy Algorithmen.
- greedy
- Aktion wählen mit dem maximal geschätzten Wert
- non greedy
- Zufällige Aktion wählen
- e-greedy
- Mit Wahrscheinlichkeit beliebige Aktion auswählen
- Mit 1- Wahrscheinlichkeit maximale Aktion auswählen
Wie kann eine Policy ausgearbeitet werden?
- Beginnen mit einer zufälligen Policy
- Berechnen der Value-Funktion v unter Berücksichtigung der aktuellen Policy
- Policy verbessern durch greedy-Auswahl der Aktionen aus v
- Wiederholen, bis sich die Policy nicht mehr verändert
Wie funktioniert Backward Induction?
- Den Baum von unten nach oben durcharbeiten (oder eben von rechts nach links)
- Immer den besten Weg (mit dem höchsten Payoff) für den aktuellen Spieler markieren
- Ist für sequenzielle endliche Spiele mit perfekter Information geeignet
Wie funktioniert der Minimax-Algorithmus?
- Wenn der Knoten mir gehört: Aktion wählen, die den Payoff maximiert
- Wenn der Knoten dem Gegner gehört: Aktion wählen, die den Payoff minimiert
- Wenn es ein Endknoten ist: Den Payoff berechnen
Wie lautet die Formel für UCB1
\(U_i ={W_i \over N_i} + c\sqrt{ln(N_p) \over N_i} \)
- Wi = Anzahl Gewinne mit der Maschine i
- Ni = Anzahl Versuche mit der Maschine i
- Np = Anzahl Versuche insgesamt
- c = Verhältnis von wie viel Exploitation (tiefes C), bzw. Exploration (hohes C) verwendet werden solte. Erfahrungswert ist \(\sqrt2\)
Erklären Sie den Algorithmus, der 1997 im Schach gewonnen hat
- Deep Blue
- 8000 handgefertigte Features
- Evaluation des Bretts mit dem Skalarprodukt zwischen Features und Gewichten
- Gewichte wurden vor allem von Hand angepasst durch menschliche Experten
- High-Performance parallele Minimax mit Alpha-Beta Pruning
- 480 spezialgefertige VLSI Schach-Prozessoren
- Durchsucht 200 Millionen Positionen pro Sekunde
Wie sieht ein neuronales Netzwerk aus?
Knoten (Neuronen) mit Kanten (verbindungen), optional sind Neuronen in Layern gruppiert
Was ist eine Aktivierungsfunktion?
- (Teilweis-)Linear
- ReLU
- Nicht Linear
- Softmax (Sigmoid),
- tanh
Nicht-lineare Aktivierungsfunktionen machen das Netzwerk besonders mächtig
Wieso will man nicht immer Greedy sein?
Greedy Algorithmen würden in lokalen Minima oder Maxima hängen bleiben d.h. ein globales Maximum oder Minimum wird nicht gefunden
Erklähren Sie Gridworld
Grid World ist ein rechteckiges 2D-Raster (Ny, Nx), bei dem ein Agent an einem Feld beginnt und versucht, zu einem anderen Feld zu wechseln, das sich an einer anderen Stelle befindet. Eine solche Umgebung ist eine natürliche Umgebung für die Anwendung von Reinforcement learning algorithmen, um optimale Pfade und Policies für Agenten auf dem Grids zu finden, um in möglichst wenigen Zügen die gewünschten Ziel-Felder zu erreichen.
Mit welchen Technologien wurde im jahr 20XX der Schach Bot programmiert der den Meister geschlagen hat?
minimax mit 8000 heuristiken
Wie minimiert man eine Funktion?
[Stochastic] Gradient descent -> Ableitung und dann iterativ in richtung Minimum