dl4g

dl4g

dl4g

Cyrille Ulmi

Cyrille Ulmi

Set of flashcards Details

Flashcards 95
Students 28
Language Deutsch
Category Computer Science
Level University
Created / Updated 24.01.2019 / 23.11.2023
Weblink
https://card2brain.ch/box/20190124_dl4g
Embed
<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was sind die Eigenschaften von endlichen-sequenziellen Spielen?

• eine endliche Anzahl Spieler mit einer endlichen Anzahl Aktionen
• die Aktionen werden sequenziell ausgewählt
• es wird eine endliche Anzahl Runden gespielt
• spätere Spieler sehen die Aktionen vorheriger Spieler
 

Was wird unter perfect recall verstanden?
 

perfekte Erinnerung an alle vorherigen Züge
 

Was ist eine Strategie?
 

sagt einem Spieler welche Aktion in diesem Zug auszuführen ist
 

Was ist eine Strategie Profil?
 

die ausgewählte Strategie eines Spielers
 

Was ist eine utility oder payoff function?
 

berechnet das Resultat für jede Aktion

 

Was sind die Komplexitätsfaktoren bei einer Spielanalyse?
 

• Anzahl Spieler
• Grösse des Suchraums (Anzahl gespielte Züge und Anzahl mögliche Aktionen)
• Kompetitiv vs. Kooperativ
• Stochastische Spiele (mit Zufall) vs. Deterministisch
• Perfekte vs. Nicht perfekte Information
 

Was ist nicht perfekte Information?
 

• das Spiel konnte nur teilweise beobachtet werden
• z.B. kennt man nicht die Karten der anderen Spieler
 

Was sind Beispiele von Spielen mit perfekte und nicht perfekter Information?

• Perfekt (Schach)
• Nicht perfekt (Jass)
 

Was ist der Suchraum?

• Anzahl gültige Brettpositionen
• untere Grenze für Suchbaum
 

Was ist ein Suchbaum?

• Knoten sind Spielpositionen / Spielzustände
• Kanten sind Aktionen / Spielzüge
• Blätter werden durch payoff functions definiert
 

Wie funktioniert Backward Induction?

• Baum von unten nach oben durcharbeiten
• immer bester Weg für den aktuellen Spieler markieren
• für sequenzielle endliche Spiele mit perfekter Information geeignet
 

Was bedeutet Rationalität?
 

Spieler nimmt nicht die schlechtere Alternative
 

Welche Arten von Lösungen werden bei endlichen-sequenziellen Spielen unterschieden?
 

• ultraschwach
– hat der erste Spieler ein Vorteil
– beispielsweise durch Existenzbeweise in Mathe
– Wissen das erste Personen einen Vorteil hat
– ohne genaue Strategie zu kennen
• schwache Lösung
– kann ein komplettes Spiel durchspielen
– Annahme dass der Gegner sich rational verhält
• starke Lösung
– immer durchsetzbar auch wenn nicht erster Spieler
– kann von jeder Position aus gewinnen
 

Was wird unter einem Nullsummenspiel verstanden?
 

• Vorteil für einen Spieler ist zum Nachteil des anderen Spielers
• Punktesumme für zwei Strategien ist immer 0
 

Was sind die Charakteristiken des Minimax-Algorithmus?
 

• gilt nur für einen Nullsummenspiel
• zwei Möglichkeiten / Ziele
– eigenen Gewinn maximieren
– Gewinn des Gegners minimieren

Wie funktioniert der Minimax-Algorithmus?
 

• wenn der Knoten mir gehört: Aktion wählen die den payoff maximiert
• wenn der Knoten dem Gegner gehört: Aktion wählen die den payoff minimiert
• wenn es einen Endknoten ist: payoff berechnen
 

Was versteht man unter Search Tree Pruning?
 

• nicht relevante Teilbäume weglassen
• Reduzierung des Rechenaufwands
 

Was sind die Regeln von Alpha-Beta-Pruning?
 

• α ist der grösste Wert aller MAX Vorfahren eines MIN Knoten
• β ist der kleinste Wert aller MIN Vorfahren eines MAX Knoten
• Teilbaum abschneiden, falls grösser als α oder kleiner als β
 

Was ist der Vorteil von Alpha-Beta-Pruning?
 

• b = Anzahl Kanten pro Knoten
• m = Tiefe des Baumes
• von O(bˆm) nach O(bˆ(m/2))
• halbieren der Tiefe des Suchbaume

Wieso werden Random Walks eingesetzt? (TreeSearch)
 

• Suchraum ist oft zu grosse für eine vollständige Suche
• die Idee bei minimax ist bei einer bestimmten Tiefe zu stoppen und zu raten
• eine alternative ist der Monte Carlo Tree Search
 

Was ist die Idee hinter Monte Carlo Tree Search?
 

• macht einen Random Walk und spielt zufällige Simulationen
• versucht in einer fixen Zeit möglich viel des Suchraumes zu entdecken
• am Schluss wird der vielversprechenste Spielzug ausgewählt
 

Welche 4 Phasen gibt es bei Monte Carlo Tree Search?
 

1. Selection:
• Start from root node R and select successive child nodes
• Stop when you reach a leaf or a node that has not yet been fully expanded
• Needs a criterion for selecting child nodes called tree policy
2. Expansion:
• If L ends the game, return payoffs
• Otherwise, choose an unexplored action and create a node C for it
3. Simulation:
• Simulate a playout from node C using a default policy
• In the simplest case, just play the game to an end with random moves
4. Backpropagation:
• Update the information stored in each node from C back to the root node R
• Monte Carlo Tree Search expects payoffs in [0,1]
 

Welche zwei Ansätze gibt es beim Auswählen eines neuen Knotens?
 

• Exploitation:
– immer bestes payoff wählen
– Anhand der Beobachtungen auf der besten Maschine spielen um Gewinn zu maximieren
• Exploration:
– etwas neues wählen, versuchen möglichst viel zu erkunden
– alle Maschinen spielen um möglichst viel Informationen zu gewinnen
 

Was ist die Idee hinter UCB?
 

• steht für Upper Confidence Bound
• beste Strategie ist Mischung aus Exploitation und Exploration
• ergibt ein statistischen Konfidenzintervall für jede Option
• Parameter c kontrolliert trade-off zwischen Exploitation und Exploration
 

Was ist sehr wichtig bei der Anwendung von UCB?
 

immer die Vektor-Komponente des aktuellen Spieler für die Berechnung verwenden
 

Was passiert bei MCST wenn die Zeit abgelaufen ist?
 

Aktion spielen mit der höchsten Anzahl an Besuchen
 

Was sind die Unterscheide von Minimax und Monte Carlo Tree Search?
 

• beide Algorithem setzen perfekte Information voraus
• Minimax ist nur anwendbar auf Nullsummenspiele mit zwei Spieler
• Monte Carlo Tree Search funktioniert für jedes Spiel mit perfekter Information
• Minimax optimiert payoffs; MCTS optimizes an exploitation-exploration tradeoff
• MCTS ist ein Anytime-Algorithmus, Minimax nicht
• Monte Carlo Bäume sind asymetrisch; Minimax Bäume sind symterisch
 

Was ist ein Anytime-Algorithmus?
 

Kann eine gültige Lösung zurückgeben, auch wenn die Ausführung abgebrochen wird
 

Wie sehen die payoff beim MCTS aus und was wird maximiert?
 

• für ein Beispiel mit zwei Spieler nimmt der payoff Vektor die Form [W, N - W] an
• Spieler 1 maximiert W, Spieler 2 maximiert N - W
• ebenso kann Spieler 2 -W minimieren
 

Was ist ein Information Set?
 

• ist eine Menge von Knoten des gleichen Spielers
• Spieler kennt vorherigen Zug nicht
• alle Knoten müssen gleiche Optionen bieten
• immer aus Sicht eines Spielers
 

Was ist der Unterschied zwischen perfekter und nicht perfekter Information?
 

• unterschiedliche Strategien werden gewählt
• bei perfekter Information hat jeder Knoten exakt eine Option
 

Was ist die Idee hinter Determinization?
 

• unbekannte Karten zufällig auf die Gegner verteilen
• danach anwenden der Regeln von vollständiger Information (beispielsweise mit MCTS)
• ergibt dann mehrere mögliche Spielbäume
• schlussendlich über alle Bäume die Option welche am meisten besucht wurde
• manchmal werden Entscheidung getroffen, welche gar nie eintreten können
• kann zu falschen Entscheidungen führen

Was muss bei der Implementation von MCTS mit Information Sets beachtet werden?
 

• Baum besteht aus Information Sets und nicht mehr aus Zuständen
• Knoten entsprechen Information Sets aus Sicht des Wurzelspielers
• Karten werden zufällig verteilt und ungültige Varianten werden ausgeblendet
• Kanten entsprechen einer Aktion, welche in mindestens einem Zustand möglich ist
• Danach funktioniert es wie ein Spiel mit perfekter Information
 

Wie muss die UCB angepasst werden für Information Sets?
 

• Np = wie oft wurde der Vorgänger Knoten gespielt und i war verfügbar
• dazu muss die Knotenliste ergänzt werden mit wie viel Mal jede Option verfügbar war
 

Welche Diszipline gibt es bei Machine Learning?
 

1. Supervised Learning
• dem Algorithmus werden gelabelte Trainingsdaten gegeben
• der Algorithmus lernt Labels von unbekannten Daten vorherzusagen
2. Unsupervised Learning
• dem Algorithmus werden nicht gelabelte Trainingsdaten gegeben
• der Algorithmus entdeckt selbständig die Struktur der Daten
3. Semi-Supervised Learning
• eine Mischung zwischen Supervised und Unsupervised Learning
• wird meistens benutzt wenn eine kleine Anzahl an gelabelten Daten zur Verfügung stehen
4. Reinforcement Learning
• Keine Daten stehen zur Verfügung
• der Algorithmus wird durch eine Reward Funktion geleitet
• das ideale Verhalten wird gesucht um die Reward Funktion zu maximieren
 

Was können die Gründe für eine schlechte Datenqualität sein?
 

• schlecht designet, mangelhafte oder inkonsistente Datenformate
• Programmierfehler oder technische Probleme
• Alter der Daten (z.B. ungültige E-Mail Adressen)
• schlechte Dateneingabemasken (fehlende Validierung)
• menschliche Fehler bei der Daten Exportierung
• ungültige oder falsche Informationen
 

Welche Möglichkeiten gibt es die Qualität von Daten festzustellen?
 

• Datenquellen und deren Zuverlässigkeit überprüfen
• Statistische Kennzahlen interpretieren und überprüfen
• Visuelles überprüfen eines Datenauszug
• manuell Datenbereiche überprüfen (z.B. negative Löhne)
• Plausibilität von Zusammenhänge überprüfen
• Redundanz der Daten messe
• Abweichungen in Syntax und Semantik der Daten
• NULL-Werte und doppelte Daten untersuchen
 

Wie läuft eine ganz einfaches Machine Learning ab?
 

• Daten in Testdaten und Trainingsdaten aufteilen
• Klassifikator auf den Trainingsdaten trainieren
• Klassifikator anhand der Testdaten bewerten
 

=> funktioniert nur mit vielen Daten und wenn die Hyperparameter festgelegt sind
 

Wie sollten die Daten in einem Data Pool aufgeteilt werden?
 

• ca. 70% - 80% Trainingdaten
• ca. 20% - 30% Testdaten
 

Wie sollte beim Aufteilen der Daten vorgegangen werden?
 

• Daten zufällig mischen
• Daten aufteilen in Training und Test
• Training und Testdaten müssen disjunkt sein