HSLU DL4G HS20

Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi

124

0.0 (0)

Set of flashcards Details

Flashcards	124
Language	Deutsch
Category	Computer Science
Level	University
Created / Updated	22.01.2021 / 09.01.2023
Weblink	https://card2brain.ch/cards/20210122_hslu_dl4g_hs20?max=40&offset=80
Embed	<iframe src="https://card2brain.ch/box/20210122_hslu_dl4g_hs20/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Card list

Wie wird ein neuronales Netzwerk trainiert?

Differenz zwischen berechnetem Wert und gegebenem Label
Es wird versucht, Differenzen zu minimieren

Wie kann das Training auf seine Wirksamkeit überprüft werden?

Benötigt eine Metrik und Testdaten
Zum Beispiel: Überprüfen der Accuracy

Was ist der Vorteil eines Deep Neuronal Networks?

Features werden automatisch berechnet

Was ist das Problem mit der optimalen Kapatität? (NN)

Mit mehr Trainingsdaten wird der Fehler kleiner
Der Fehler der Testdaten wird dann jedoch immer grösser

Welche 3 Klassen gibt es bei VOC Challenges?

Klassifizierung: Enthält das Bild ein Objekt einer Klasse?
Erkennung: Welche Klasse haben die Objekte eines BIldes?
Segmentierung: zu welcher Klasse gehört ein einzelnes Pixel?

Was ist die Funktion einer Support Vector Machine?

Berechnet Features und Deskriptoren
Berechnet eine Art Fingerabdruck auf dem Bild

Was ist die Idee hinter einem Residual Network?

Layer darf das Ergebnis nicht verschlechtern
Falls Layer nichts bewirkt, einfach ignorieren

Welche Layer-Typen gibt es? (NN)

Dense / Fully-Connected
Convolutional
Polling

Was zeichnet den Dense / Fully-Connected Layer aus?

Jeder Knoten ist mit jedem Knotem aus dem Layer davor verbunden
Jede Verbindung hat ein Gewicht

Was zeichnet den Convolutional Layer aus?

Knoten ist nur mit einem Teil der vorherigen Knoten verbunden
Immer die gleichen Gewichtungen verwenden

Was zeichnet den Polling Layer aus?

Berechnet das Maximum oder den Durchschnitt einer Region
Macht das Bild kleiner

Wie funktioniert Regularisierung?

Zur Loss-Funktion wird eine Penalty-Funktion addiert
Penalty-Funktion ist abhängig von den Gewichten

Was ist L2-Regularisierung?

Quadrat der Gewichte zur Loss-Funktion addieren

Welche Regularisierungs-Methoden gibt es?

L2
Ensemble Method
Dropout
Early Stopping

Was ist Ensemble Method Regularisierung

Abstimmung von mehreren separat trainierten Netzwerken

Was ist Dropout Regularisierung

Zufällige Knoten mit 0 multiplizieren
Netzwerk muss mehrere Wege finden

Was ist Early Stopping Regularisierung

Stoppen, wenn Fehler des Validation-Sets zu wachsen beginnt
Lernen der benötigten Anzahl Trainingsschritte (Hyperparameter)

Was ist der Unterschied zwischen einem Non-Deep und Deep Neural Network?

Deep Neural Network erkennt die Features selbstständig
Es werden nur noch die Daten benötigt

Was ist ein Convolutional Neural Network?

Es sind nicht alle Knoten mit dem vorherigen Layer verbunden
Die Gewichte werden für jede Position geteilt

Was bedeutet Regularisierung und wieso wird es gebraucht?

Penalty auf den Gewichten
Zum Beispiel: Quadrate der Gewichte zur Loss-Funktion addieren
Um eine glättere Kurve zu bekommen
Verhindert Overfitting

Was bedeutet Dropout und wieso wird es gebraucht? (RL)

Verwirft zufällig Knoten (setzt sie auf 0)
Zwingt das Netzwerk, Alternativen zu finden
Gibt ein stabileres Netzwerk

Was ist die Idee hinter Inception

Mehrere Layer nebeneinander und dann addieren

Was ist die Idee hinter Res-Net?

Shortcut zwischen einzelnen Knoten
Einfacheres Lernen von komplizierten Netzwerken

Was ist Reinforcement Learning?

Ziel: Reward maximieren
Reward kann durch Aktionen verändert werden
Aktionen beeinflussen die Umgebung

Was ist Reinforcement Learning nicht?

Supervised Learning: es gibt keinen Supervisor, der sagt, was richtig ist
Unsupervised Learning: es werden auch keine Strukturen gesucht

Was sind die Eigenschaften von Reinforcement Learning?

Verzögertes Feedback
Zeit ist relevant
Aktionen beeinflussen die Umgebung und die Daten

Was ist ein Reward

Ein Reward Rt ist ei Feedback, welches angibt, wie gut sich der Agent zum Zeitpunkt t verhält.

Welche 5 Arten von RL-Agenten gibt es?

Value Based: no policy (implicit), value function
Policy Based: policy, no value function
Actor Critic: policy, value function
Model Free: policy and/or value function, no model
Model: policy and/or value function, model

Beschreiben Sie die verschiedenen Varianten von Greedy Algorithmen.

greedy
- Aktion wählen mit dem maximal geschätzten Wert
non greedy
- Zufällige Aktion wählen
e-greedy
- Mit Wahrscheinlichkeit beliebige Aktion auswählen
- Mit 1- Wahrscheinlichkeit maximale Aktion auswählen

Wie kann eine Policy ausgearbeitet werden?

Beginnen mit einer zufälligen Policy
Berechnen der Value-Funktion v unter Berücksichtigung der aktuellen Policy
Policy verbessern durch greedy-Auswahl der Aktionen aus v
Wiederholen, bis sich die Policy nicht mehr verändert

Wie funktioniert Backward Induction?

Den Baum von unten nach oben durcharbeiten (oder eben von rechts nach links)
Immer den besten Weg (mit dem höchsten Payoff) für den aktuellen Spieler markieren
Ist für sequenzielle endliche Spiele mit perfekter Information geeignet

Wie funktioniert der Minimax-Algorithmus?

Wenn der Knoten mir gehört: Aktion wählen, die den Payoff maximiert
Wenn der Knoten dem Gegner gehört: Aktion wählen, die den Payoff minimiert
Wenn es ein Endknoten ist: Den Payoff berechnen

Wie lautet die Formel für UCB1

\(U_i ={W_i \over N_i} + c\sqrt{ln(N_p) \over N_i} \)

W_i= Anzahl Gewinne mit der Maschine i
N_i = Anzahl Versuche mit der Maschine i
N_p = Anzahl Versuche insgesamt
c = Verhältnis von wie viel Exploitation (tiefes C), bzw. Exploration (hohes C) verwendet werden solte. Erfahrungswert ist \(\sqrt2\)

Erklären Sie den Algorithmus, der 1997 im Schach gewonnen hat

Deep Blue
- 8000 handgefertigte Features
- Evaluation des Bretts mit dem Skalarprodukt zwischen Features und Gewichten
- Gewichte wurden vor allem von Hand angepasst durch menschliche Experten
- High-Performance parallele Minimax mit Alpha-Beta Pruning
- 480 spezialgefertige VLSI Schach-Prozessoren
- Durchsucht 200 Millionen Positionen pro Sekunde

Wie sieht ein neuronales Netzwerk aus?

Knoten (Neuronen) mit Kanten (verbindungen), optional sind Neuronen in Layern gruppiert

Was ist eine Aktivierungsfunktion?

(Teilweis-)Linear
- ReLU
Nicht Linear
- Softmax (Sigmoid),
- tanh

Nicht-lineare Aktivierungsfunktionen machen das Netzwerk besonders mächtig

Wieso will man nicht immer Greedy sein?

Greedy Algorithmen würden in lokalen Minima oder Maxima hängen bleiben d.h. ein globales Maximum oder Minimum wird nicht gefunden

Erklähren Sie Gridworld

Grid World ist ein rechteckiges 2D-Raster (Ny, Nx), bei dem ein Agent an einem Feld beginnt und versucht, zu einem anderen Feld zu wechseln, das sich an einer anderen Stelle befindet. Eine solche Umgebung ist eine natürliche Umgebung für die Anwendung von Reinforcement learning algorithmen, um optimale Pfade und Policies für Agenten auf dem Grids zu finden, um in möglichst wenigen Zügen die gewünschten Ziel-Felder zu erreichen.

Mit welchen Technologien wurde im jahr 20XX der Schach Bot programmiert der den Meister geschlagen hat?

minimax mit 8000 heuristiken

Wie minimiert man eine Funktion?

[Stochastic] Gradient descent -> Ableitung und dann iterativ in richtung Minimum

Card list

HSLU DL4G HS20

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google