HSLU DL4G HS20

Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi

124

0.0 (0)

Kartei Details

Karten	124
Sprache	Deutsch
Kategorie	Informatik
Stufe	Universität
Erstellt / Aktualisiert	22.01.2021 / 09.01.2023
Weblink	https://card2brain.ch/box/20210122_hslu_dl4g_hs20
Einbinden	<iframe src="https://card2brain.ch/box/20210122_hslu_dl4g_hs20/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Kartenliste

Wie kann eine Policy ausgearbeitet werden?

Beginnen mit einer zufälligen Policy
Berechnen der Value-Funktion v unter Berücksichtigung der aktuellen Policy
Policy verbessern durch greedy-Auswahl der Aktionen aus v
Wiederholen, bis sich die Policy nicht mehr verändert

Wie funktioniert Backward Induction?

Den Baum von unten nach oben durcharbeiten (oder eben von rechts nach links)
Immer den besten Weg (mit dem höchsten Payoff) für den aktuellen Spieler markieren
Ist für sequenzielle endliche Spiele mit perfekter Information geeignet

Wie funktioniert der Minimax-Algorithmus?

Wenn der Knoten mir gehört: Aktion wählen, die den Payoff maximiert
Wenn der Knoten dem Gegner gehört: Aktion wählen, die den Payoff minimiert
Wenn es ein Endknoten ist: Den Payoff berechnen

Wie lautet die Formel für UCB1

\(U_i ={W_i \over N_i} + c\sqrt{ln(N_p) \over N_i} \)

W_i= Anzahl Gewinne mit der Maschine i
N_i = Anzahl Versuche mit der Maschine i
N_p = Anzahl Versuche insgesamt
c = Verhältnis von wie viel Exploitation (tiefes C), bzw. Exploration (hohes C) verwendet werden solte. Erfahrungswert ist \(\sqrt2\)

Erklären Sie den Algorithmus, der 1997 im Schach gewonnen hat

Deep Blue
- 8000 handgefertigte Features
- Evaluation des Bretts mit dem Skalarprodukt zwischen Features und Gewichten
- Gewichte wurden vor allem von Hand angepasst durch menschliche Experten
- High-Performance parallele Minimax mit Alpha-Beta Pruning
- 480 spezialgefertige VLSI Schach-Prozessoren
- Durchsucht 200 Millionen Positionen pro Sekunde

Wie sieht ein neuronales Netzwerk aus?

Knoten (Neuronen) mit Kanten (verbindungen), optional sind Neuronen in Layern gruppiert

Was ist eine Aktivierungsfunktion?

(Teilweis-)Linear
- ReLU
Nicht Linear
- Softmax (Sigmoid),
- tanh

Nicht-lineare Aktivierungsfunktionen machen das Netzwerk besonders mächtig

Wieso will man nicht immer Greedy sein?

Greedy Algorithmen würden in lokalen Minima oder Maxima hängen bleiben d.h. ein globales Maximum oder Minimum wird nicht gefunden

Erklähren Sie Gridworld

Grid World ist ein rechteckiges 2D-Raster (Ny, Nx), bei dem ein Agent an einem Feld beginnt und versucht, zu einem anderen Feld zu wechseln, das sich an einer anderen Stelle befindet. Eine solche Umgebung ist eine natürliche Umgebung für die Anwendung von Reinforcement learning algorithmen, um optimale Pfade und Policies für Agenten auf dem Grids zu finden, um in möglichst wenigen Zügen die gewünschten Ziel-Felder zu erreichen.

Mit welchen Technologien wurde im jahr 20XX der Schach Bot programmiert der den Meister geschlagen hat?

minimax mit 8000 heuristiken

Wie minimiert man eine Funktion?

[Stochastic] Gradient descent -> Ableitung und dann iterativ in richtung Minimum

Was muss man beachten wenn man Accuracy oder die Error Rate berechnet?

Gleich viele Daten beider Klassen (Negativ und Positiv)

Was ist QLearning?

Ist ein off policy, model freier reinforcement learning algorithm. Ähnlich zu SARSA

Wie wird die Loss Function optimiert bei einem NN?

gradient descent: gradient berechnen um minimum zu finden

Wie kann man die loss funktion optimieren/minimieren

SGD: Stochastic gradient descent (Stochastisches Gradientenverfahren)
- Das Ziel ist hier, die Kosten pro Iteration unabhängig von n werden zu lassen, um den hohen Rechenaufwand des normalen Gradientenverfahren zu minimieren

Was sind die Eigenschaften von endlichen-sequenziellen Spielen?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Eine endliche Anzahl Spieler mit einer endlichen Anzahl Aktionen
Die Aktionen werden sequenziell ausgewählt
Es wird eine endliche Anzahl Runden gespielt
Spätere Spieler sehen die Aktionen vorheriger Spieler

Wieso werden Random Walks eingesetzt? (Tree Search)

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Der Suchraum ist oft zu gross für eine vollständige Suche
Die Idee, verglichen zu Minimax, ist, bei einer bestimmten Tiefe zu stoppen und zu raten

Was ist ein Information Set?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Ein Information Set ist eine Menge von Knoten des gleichen Spielers
Der Spieler kennt den vorherigen Zug nicht
Alle Knoten müssen die gleichen Optionen bieten
Sind immer aus der Sicht eines Spielers

Was ist die Idee hinter Monte Carlo Tree Search?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Macht einen Random Walk und spielt zufällige Simulationen
Versucht, in einer fixen Zeit möglichst viel des Suchraums zu entdecken
Am Schluss wird der vielversprechendste Spielzug ausgewählt

War wird unter Perfect Recall verstanden?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Perfekte Erinnerung an alle vorherigen Züge

Welche 4 Phasen gibt es bei Monte Carlo Tree Search?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Selection
Expansion
Simulation
Backpropagation

Was ist der Unterschied zwischen perfekter und imperfekter Information?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Unterschiedliche Strategien werden gewählt
Bei perfekter Information hat jeder Knoten exakt eine Option

Was passiert in der Selection Phase des Monte Carlo Tree Search

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Starte beim Wurzelknoten R und wähle fortlaufend Kinderknoten
Stoppe, wenn du einen Knoten erreichst, der noch nicht komplett erweitert/erforscht wurde
Benötigt ein Kriterum für die Auswahl der Kinderknoten, sogennante tree policy

Was ist eine Strategie?

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Sagt einem Spieler, welche Aktion im aktuellen Zug auszuführen ist

Was passiert in der Expansion Phase des Monte Carlo Tree Search

Tastatur-Befehle:

= drehen,

= vor-/rückwärts,

= scrollen

Wenn das Zeitlimit L das Spiel beendet, gib die Payoffs zurück
Sonst, wähle eine unerforschte Aktion und kreiere einen Knoten C für diese

Was ist die Idee hinter Determinization?

Unbekannte Karten zufällig auf die Gegner verteilen
Danach das Anwenden der Regeln von perfekter Information (bspw. mit MCTS)
Ergibt dann mehrere mögliche Suchbäume
Schlussendlich über alle Bäume die Option wählen, die am meisten besucht wurde
Manchmal werden Entscheidungen getroffen, welche gar nie eintreten können, was zu falschen Entscheidungen führen kann

Was passiert in der Simulation Phase des Monte Carlo Tree Search

Simuliere ein Weiterspielen von Knoten C aus, mithilfe einer default policy
Im simpelsten Fall, spiele einfach bis zu irgendeinem Ende mit zufälligen Zügen

Was ist ein Strategie-Profil?

Die ausgewählte Strategie eines Spielers

Was passiert in der Backpropagation Phase des Monte Carlo Tree Search

Aktualisiere die gespeicherten Informationen in jedem Knoten von C zurück bis zu R
MCTS erwartet einen Payoff in [0,1]

Was muss bei einer Implementation von Monte Carlo Tree-Search (MCTS) mit Information Sets beachtet werden?

Der Baum besteht aus Information Sets und nicht mehr aus Zuständen
Knoten entsprechen Information Sets aus der Sicht des Wurzelspielers
Karten werden zufällig verteilt und ungültige Varianten werden ausgeblendet
Kanten entsprechen einer Aktion, welche in mindestens einem Zustand möglich ist
Funktioniert danach wie ein Spiel mit perfekter Information

1 / 124

Kartenliste

Lernen

HSLU DL4G HS20

Lernkarteien erstellen oder kopieren

Lernkarteien erstellen oder kopieren

Melde dich an, um alle Karten zu sehen.

SWITCHaai

Office 365

Edulog

Apple ID

Google