HSLU DL4G HS20

Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi

Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi


Set of flashcards Details

Flashcards 124
Language Deutsch
Category Computer Science
Level University
Created / Updated 22.01.2021 / 09.01.2023
Weblink
https://card2brain.ch/box/20210122_hslu_dl4g_hs20
Embed
<iframe src="https://card2brain.ch/box/20210122_hslu_dl4g_hs20/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Wie wird ein neuronales Netzwerk trainiert?
 

  • Differenz zwischen berechnetem Wert und gegebenem Label
  • Es wird versucht, Differenzen zu minimieren
     

Wie kann das Training auf seine Wirksamkeit überprüft werden?
 

  • Benötigt eine Metrik und Testdaten
  • Zum Beispiel: Überprüfen der Accuracy
     

Was ist der Vorteil eines Deep Neuronal Networks?
 

Features werden automatisch berechnet
 

Was ist das Problem mit der optimalen Kapatität? (NN)
 

  • Mit mehr Trainingsdaten wird der Fehler kleiner
  • Der Fehler der Testdaten wird dann jedoch immer grösser
     

Welche 3 Klassen gibt es bei VOC Challenges?
 

  • Klassifizierung: Enthält das Bild ein Objekt einer Klasse?
  • Erkennung: Welche Klasse haben die Objekte eines BIldes?
  • Segmentierung: zu welcher Klasse gehört ein einzelnes Pixel?
     

Was ist die Funktion einer Support Vector Machine?
 

  • Berechnet Features und Deskriptoren
  • Berechnet eine Art Fingerabdruck auf dem Bild
     

Was ist die Idee hinter einem Residual Network?
 

  • Layer darf das Ergebnis nicht verschlechtern
  • Falls Layer nichts bewirkt, einfach ignorieren
     

Welche Layer-Typen gibt es? (NN)
 

  • Dense / Fully-Connected
  • Convolutional
  • Polling
     

Was zeichnet den Dense / Fully-Connected Layer aus?

  • Jeder Knoten ist mit jedem Knotem aus dem Layer davor verbunden
  • Jede Verbindung hat ein Gewicht
     

Was zeichnet den Convolutional Layer aus?

  • Knoten ist nur mit einem Teil der vorherigen Knoten verbunden
  • Immer die gleichen Gewichtungen verwenden
     

Was zeichnet den Polling Layer aus?

  • Berechnet das Maximum oder den Durchschnitt einer Region
  • Macht das Bild kleiner
     

Wie funktioniert Regularisierung?
 

  • Zur Loss-Funktion wird eine Penalty-Funktion addiert
  • Penalty-Funktion ist abhängig von den Gewichten
     

Was ist L2-Regularisierung?
 

Quadrat der Gewichte zur Loss-Funktion addieren
 

Welche Regularisierungs-Methoden gibt es?
 

  • L2
  • Ensemble Method
  • Dropout
  • Early Stopping
     

Was ist Ensemble Method Regularisierung

Abstimmung von mehreren separat trainierten Netzwerken
 

Was ist Dropout Regularisierung

  • Zufällige Knoten mit 0 multiplizieren
  • Netzwerk muss mehrere Wege finden
     

Was ist Early Stopping Regularisierung

  • Stoppen, wenn Fehler des Validation-Sets zu wachsen beginnt
  • Lernen der benötigten Anzahl Trainingsschritte (Hyperparameter)
     

Was ist der Unterschied zwischen einem Non-Deep und Deep Neural Network?
 

  • Deep Neural Network erkennt die Features selbstständig
  • Es werden nur noch die Daten benötigt
     

Was ist ein Convolutional Neural Network?
 

  • Es sind nicht alle Knoten mit dem vorherigen Layer verbunden
  • Die Gewichte werden für jede Position geteilt
     

Was bedeutet Regularisierung und wieso wird es gebraucht?
 

  • Penalty auf den Gewichten
  • Zum Beispiel: Quadrate der Gewichte zur Loss-Funktion addieren
  • Um eine glättere Kurve zu bekommen
  • Verhindert Overfitting
     

Was bedeutet Dropout und wieso wird es gebraucht? (RL)
 

  • Verwirft zufällig Knoten (setzt sie auf 0)
  • Zwingt das Netzwerk, Alternativen zu finden
  • Gibt ein stabileres Netzwerk
     

Was ist die Idee hinter Inception
 

Mehrere Layer nebeneinander und dann addieren
 

Was ist die Idee hinter Res-Net?
 

  • Shortcut zwischen einzelnen Knoten
  • Einfacheres Lernen von komplizierten Netzwerken
     

Was ist Reinforcement Learning?
 

  • Ziel: Reward maximieren
  • Reward kann durch Aktionen verändert werden
  • Aktionen beeinflussen die Umgebung
     

Was ist Reinforcement Learning nicht?
 

  • Supervised Learning: es gibt keinen Supervisor, der sagt, was richtig ist
  • Unsupervised Learning: es werden auch keine Strukturen gesucht

Was sind die Eigenschaften von Reinforcement Learning?
 

  • Verzögertes Feedback
  • Zeit ist relevant
  • Aktionen beeinflussen die Umgebung und die Daten
     

Was ist ein Reward
 

Ein Reward Rt ist ei Feedback, welches angibt, wie gut sich der Agent zum Zeitpunkt t verhält.
 

Welche 5 Arten von RL-Agenten gibt es?
 

  • Value Based: no policy (implicit), value function
  • Policy Based: policy, no value function
  • Actor Critic: policy, value function
  • Model Free: policy and/or value function, no model
  • Model: policy and/or value function, model
     

Beschreiben Sie die verschiedenen Varianten von Greedy Algorithmen.

  • greedy
    • Aktion wählen mit dem maximal geschätzten Wert
  • non greedy
    • Zufällige Aktion wählen
  • e-greedy
    • Mit Wahrscheinlichkeit beliebige Aktion auswählen
    • Mit 1- Wahrscheinlichkeit maximale Aktion auswählen
       

Wie kann eine Policy ausgearbeitet werden?
 

  • Beginnen mit einer zufälligen Policy
  • Berechnen der Value-Funktion v unter Berücksichtigung der aktuellen Policy
  • Policy verbessern durch greedy-Auswahl der Aktionen aus v
  • Wiederholen, bis sich die Policy nicht mehr verändert
     

Wie funktioniert Backward Induction?
 

  • Den Baum von unten nach oben durcharbeiten (oder eben von rechts nach links)
  • Immer den besten Weg (mit dem höchsten Payoff) für den aktuellen Spieler markieren
  • Ist für sequenzielle endliche Spiele mit perfekter Information geeignet
     

Wie funktioniert der Minimax-Algorithmus?
 

  • Wenn der Knoten mir gehört: Aktion wählen, die den Payoff maximiert
  • Wenn der Knoten dem Gegner gehört: Aktion wählen, die den Payoff minimiert
  • Wenn es ein Endknoten ist: Den Payoff berechnen

Wie lautet die Formel für UCB1

\(U_i ={W_i \over N_i} + c\sqrt{ln(N_p) \over N_i} \)

  • Wi = Anzahl Gewinne mit der Maschine i
  • Ni = Anzahl Versuche mit der Maschine i
  • Np = Anzahl Versuche insgesamt
  • c = Verhältnis von wie viel Exploitation (tiefes C), bzw. Exploration (hohes C) verwendet werden solte. Erfahrungswert ist \(\sqrt2\)

Erklären Sie den Algorithmus, der 1997 im Schach gewonnen hat
 

  • Deep Blue
    • 8000 handgefertigte Features
    • Evaluation des Bretts mit dem Skalarprodukt zwischen Features und Gewichten
    • Gewichte wurden vor allem von Hand angepasst durch menschliche Experten
    • High-Performance parallele Minimax mit Alpha-Beta Pruning
    • 480 spezialgefertige VLSI Schach-Prozessoren
    • Durchsucht 200 Millionen Positionen pro Sekunde
       

Wie sieht ein neuronales Netzwerk aus?

 

Knoten (Neuronen) mit Kanten (verbindungen), optional sind Neuronen in Layern gruppiert

 

Was ist eine Aktivierungsfunktion?

 

  • (Teilweis-)Linear
    • ReLU
  • Nicht Linear
    • Softmax (Sigmoid),
    • tanh

Nicht-lineare Aktivierungsfunktionen machen das Netzwerk besonders mächtig

Wieso will man nicht immer Greedy sein?

 

Greedy Algorithmen würden in lokalen Minima oder Maxima hängen bleiben d.h. ein globales Maximum oder Minimum wird nicht gefunden

 

Erklähren Sie Gridworld

 

Grid World ist ein rechteckiges 2D-Raster (Ny, Nx), bei dem ein Agent an einem Feld beginnt und versucht, zu einem anderen Feld zu wechseln, das sich an einer anderen Stelle befindet. Eine solche Umgebung ist eine natürliche Umgebung für die Anwendung von Reinforcement learning algorithmen, um optimale Pfade und Policies für Agenten auf dem Grids zu finden, um in möglichst wenigen Zügen die gewünschten Ziel-Felder zu erreichen.

Mit welchen Technologien wurde im jahr 20XX der Schach Bot programmiert der den Meister geschlagen hat?

 

minimax mit 8000 heuristiken

 

Wie minimiert man eine Funktion?

 

[Stochastic] Gradient descent -> Ableitung und dann iterativ in richtung Minimum