HSLU DL4G HS20
Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi
Deeplearning 4 Games HS20; Special Thanks to: Cyrille Ulmi
Kartei Details
Karten | 124 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 22.01.2021 / 09.01.2023 |
Weblink |
https://card2brain.ch/box/20210122_hslu_dl4g_hs20
|
Einbinden |
<iframe src="https://card2brain.ch/box/20210122_hslu_dl4g_hs20/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Wie kann eine Policy ausgearbeitet werden?
- Beginnen mit einer zufälligen Policy
- Berechnen der Value-Funktion v unter Berücksichtigung der aktuellen Policy
- Policy verbessern durch greedy-Auswahl der Aktionen aus v
- Wiederholen, bis sich die Policy nicht mehr verändert
Wie funktioniert Backward Induction?
- Den Baum von unten nach oben durcharbeiten (oder eben von rechts nach links)
- Immer den besten Weg (mit dem höchsten Payoff) für den aktuellen Spieler markieren
- Ist für sequenzielle endliche Spiele mit perfekter Information geeignet
Wie funktioniert der Minimax-Algorithmus?
- Wenn der Knoten mir gehört: Aktion wählen, die den Payoff maximiert
- Wenn der Knoten dem Gegner gehört: Aktion wählen, die den Payoff minimiert
- Wenn es ein Endknoten ist: Den Payoff berechnen
Wie lautet die Formel für UCB1
\(U_i ={W_i \over N_i} + c\sqrt{ln(N_p) \over N_i} \)
- Wi = Anzahl Gewinne mit der Maschine i
- Ni = Anzahl Versuche mit der Maschine i
- Np = Anzahl Versuche insgesamt
- c = Verhältnis von wie viel Exploitation (tiefes C), bzw. Exploration (hohes C) verwendet werden solte. Erfahrungswert ist \(\sqrt2\)
Erklären Sie den Algorithmus, der 1997 im Schach gewonnen hat
- Deep Blue
- 8000 handgefertigte Features
- Evaluation des Bretts mit dem Skalarprodukt zwischen Features und Gewichten
- Gewichte wurden vor allem von Hand angepasst durch menschliche Experten
- High-Performance parallele Minimax mit Alpha-Beta Pruning
- 480 spezialgefertige VLSI Schach-Prozessoren
- Durchsucht 200 Millionen Positionen pro Sekunde
Wie sieht ein neuronales Netzwerk aus?
Knoten (Neuronen) mit Kanten (verbindungen), optional sind Neuronen in Layern gruppiert
Was ist eine Aktivierungsfunktion?
- (Teilweis-)Linear
- ReLU
- Nicht Linear
- Softmax (Sigmoid),
- tanh
Nicht-lineare Aktivierungsfunktionen machen das Netzwerk besonders mächtig
Wieso will man nicht immer Greedy sein?
Greedy Algorithmen würden in lokalen Minima oder Maxima hängen bleiben d.h. ein globales Maximum oder Minimum wird nicht gefunden
Erklähren Sie Gridworld
Grid World ist ein rechteckiges 2D-Raster (Ny, Nx), bei dem ein Agent an einem Feld beginnt und versucht, zu einem anderen Feld zu wechseln, das sich an einer anderen Stelle befindet. Eine solche Umgebung ist eine natürliche Umgebung für die Anwendung von Reinforcement learning algorithmen, um optimale Pfade und Policies für Agenten auf dem Grids zu finden, um in möglichst wenigen Zügen die gewünschten Ziel-Felder zu erreichen.
Mit welchen Technologien wurde im jahr 20XX der Schach Bot programmiert der den Meister geschlagen hat?
minimax mit 8000 heuristiken
Wie minimiert man eine Funktion?
[Stochastic] Gradient descent -> Ableitung und dann iterativ in richtung Minimum
Was muss man beachten wenn man Accuracy oder die Error Rate berechnet?
Gleich viele Daten beider Klassen (Negativ und Positiv)
Was ist QLearning?
Ist ein off policy, model freier reinforcement learning algorithm. Ähnlich zu SARSA
Wie wird die Loss Function optimiert bei einem NN?
gradient descent: gradient berechnen um minimum zu finden
Wie kann man die loss funktion optimieren/minimieren
- SGD: Stochastic gradient descent (Stochastisches Gradientenverfahren)
- Das Ziel ist hier, die Kosten pro Iteration unabhängig von n werden zu lassen, um den hohen Rechenaufwand des normalen Gradientenverfahren zu minimieren
Was sind die Eigenschaften von endlichen-sequenziellen Spielen?
- Eine endliche Anzahl Spieler mit einer endlichen Anzahl Aktionen
- Die Aktionen werden sequenziell ausgewählt
- Es wird eine endliche Anzahl Runden gespielt
- Spätere Spieler sehen die Aktionen vorheriger Spieler
Wieso werden Random Walks eingesetzt? (Tree Search)
- Der Suchraum ist oft zu gross für eine vollständige Suche
- Die Idee, verglichen zu Minimax, ist, bei einer bestimmten Tiefe zu stoppen und zu raten
Was ist ein Information Set?
- Ein Information Set ist eine Menge von Knoten des gleichen Spielers
- Der Spieler kennt den vorherigen Zug nicht
- Alle Knoten müssen die gleichen Optionen bieten
- Sind immer aus der Sicht eines Spielers
Was ist die Idee hinter Monte Carlo Tree Search?
- Macht einen Random Walk und spielt zufällige Simulationen
- Versucht, in einer fixen Zeit möglichst viel des Suchraums zu entdecken
- Am Schluss wird der vielversprechendste Spielzug ausgewählt
War wird unter Perfect Recall verstanden?
Perfekte Erinnerung an alle vorherigen Züge
Welche 4 Phasen gibt es bei Monte Carlo Tree Search?
- Selection
- Expansion
- Simulation
- Backpropagation
Was ist der Unterschied zwischen perfekter und imperfekter Information?
- Unterschiedliche Strategien werden gewählt
- Bei perfekter Information hat jeder Knoten exakt eine Option
Was passiert in der Selection Phase des Monte Carlo Tree Search
- Starte beim Wurzelknoten R und wähle fortlaufend Kinderknoten
- Stoppe, wenn du einen Knoten erreichst, der noch nicht komplett erweitert/erforscht wurde
- Benötigt ein Kriterum für die Auswahl der Kinderknoten, sogennante tree policy
Was ist eine Strategie?
Sagt einem Spieler, welche Aktion im aktuellen Zug auszuführen ist
Was passiert in der Expansion Phase des Monte Carlo Tree Search
- Wenn das Zeitlimit L das Spiel beendet, gib die Payoffs zurück
- Sonst, wähle eine unerforschte Aktion und kreiere einen Knoten C für diese
Was ist die Idee hinter Determinization?
- Unbekannte Karten zufällig auf die Gegner verteilen
- Danach das Anwenden der Regeln von perfekter Information (bspw. mit MCTS)
- Ergibt dann mehrere mögliche Suchbäume
- Schlussendlich über alle Bäume die Option wählen, die am meisten besucht wurde
- Manchmal werden Entscheidungen getroffen, welche gar nie eintreten können, was zu falschen Entscheidungen führen kann
Was passiert in der Simulation Phase des Monte Carlo Tree Search
- Simuliere ein Weiterspielen von Knoten C aus, mithilfe einer default policy
- Im simpelsten Fall, spiele einfach bis zu irgendeinem Ende mit zufälligen Zügen
Was ist ein Strategie-Profil?
Die ausgewählte Strategie eines Spielers
Was passiert in der Backpropagation Phase des Monte Carlo Tree Search
- Aktualisiere die gespeicherten Informationen in jedem Knoten von C zurück bis zu R
- MCTS erwartet einen Payoff in [0,1]
Was muss bei einer Implementation von Monte Carlo Tree-Search (MCTS) mit Information Sets beachtet werden?
- Der Baum besteht aus Information Sets und nicht mehr aus Zuständen
- Knoten entsprechen Information Sets aus der Sicht des Wurzelspielers
- Karten werden zufällig verteilt und ungültige Varianten werden ausgeblendet
- Kanten entsprechen einer Aktion, welche in mindestens einem Zustand möglich ist
- Funktioniert danach wie ein Spiel mit perfekter Information
-
- 1 / 124
-