dl4g

5.0 (5)

Cyrille Ulmi

Set of flashcards Details

Flashcards	95
Students	28
Language	Deutsch
Category	Computer Science
Level	University
Created / Updated	24.01.2019 / 23.11.2023
Weblink	https://card2brain.ch/box/20190124_dl4g
Embed	<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Card list

Was bedeutet Regularisierung und wieso wird es gebraucht?

• Penatlty auf den Gewichten
• z.B. Quadrate der Gewichte zur Loss-Funktion addieren
• um eine glättere Kurve zu bekommen
• verhindert overfitting

Was bedeutet Dropout und wieso wird es gebraucht? (RL)

• verwirft zufällig Knoten (auf 0 setzen)
• zwingt das Netzwerk Alternativen zu finden
• gibt stabileres Netzwerk

Was ist die Idee hinter Inception und Res-Net?

• Inception
– mehrere Layer nebeneinander und dann addieren
• Res-Net
– Shortcut zwischen einzelnen Knoten
– einfacheres Lernen von komplizierten Netzwerken

Was ist reinforcement learning?

• Ziel: Reward maximieren
• Reward kann durch Aktionen verändert werden
• Aktionen beeinflussen die Umgebung

Was ist reinforcement learning nicht?

• supervised learning
– es gibt keinen Supervisor der sagt was richtig ist
• unsupervised learning
– es werden auch keine Strukturen gesucht

Was sind die Eigenschaften von Reinforcement Learning?

• Verzögertes Feedback
• Zeit ist relevant
• Aktionen beeinflussen die Umgebung und die Daten

Was ist das Ziel von Reinforcement Learning?

Ein Reward Rt ist ein Feedback das angibt, wie gut sich der Agent zum Zeitpunkt t verhält

Welche Arten von RL Agenten gibt es?

• Value based: No Policy (implicit), Value Function
• Policy Based: Policy, No Value Function
• Actor Critic: Policy, Value Function
• Model Free: Policy and/or Value, No Model
• Model: Policy and/or Value Function, Model

Welche Varianten von greedy Algorithmen gibt es?

• greedy:
– Aktion wählen mit dem Maximalen geschätzten Wert
• non greedy:
– Zufällige Aktion wählen
• E-greedy
– mit Wahrscheinlichkeit beliebige Aktion auswählen
– mit 1 - Wahrscheinlichkeit maximale Aktion wählen

Wie kann eine Policy ausgearbeitet werden?

• Beginnen mit einer zufälligen Policy
• Berechnen der Value-Function v unter Berücksichtigung der aktuellen Policy
• Policy verbessern durch greedy-Auswahl der Aktionen aus v
• Wiederholen bis sich die Policy nicht mehr verändert

Wie funktioniert Backward Induction?

Wie funktioniert der Minimax-Algorithmus?

Was ist die Formel für UCB?

Erklären Sie den Algorithmus, welcher 1997 in Schach gewonnen hat.

Wie heissen die 4 Phasen von MCTS und wie würden diese visuell aussehen?

Was sind die Eigenschaften von endlichen-sequenziellen Spielen?

Keyboard commands:

= turn,

= for-/backward,

= scroll

• eine endliche Anzahl Spieler mit einer endlichen Anzahl Aktionen
• die Aktionen werden sequenziell ausgewählt
• es wird eine endliche Anzahl Runden gespielt
• spätere Spieler sehen die Aktionen vorheriger Spieler

Was wird unter perfect recall verstanden?

Keyboard commands:

= turn,

= for-/backward,

= scroll

perfekte Erinnerung an alle vorherigen Züge

Was ist eine Strategie?

Keyboard commands:

= turn,

= for-/backward,

= scroll

sagt einem Spieler welche Aktion in diesem Zug auszuführen ist

Was ist eine Strategie Profil?

Keyboard commands:

= turn,

= for-/backward,

= scroll

die ausgewählte Strategie eines Spielers

Was ist eine utility oder payoff function?

Keyboard commands:

= turn,

= for-/backward,

= scroll

berechnet das Resultat für jede Aktion

Was sind die Komplexitätsfaktoren bei einer Spielanalyse?

Keyboard commands:

= turn,

= for-/backward,

= scroll

• Anzahl Spieler
• Grösse des Suchraums (Anzahl gespielte Züge und Anzahl mögliche Aktionen)
• Kompetitiv vs. Kooperativ
• Stochastische Spiele (mit Zufall) vs. Deterministisch
• Perfekte vs. Nicht perfekte Information

Was ist nicht perfekte Information?

Keyboard commands:

= turn,

= for-/backward,

= scroll

• das Spiel konnte nur teilweise beobachtet werden
• z.B. kennt man nicht die Karten der anderen Spieler

Was sind Beispiele von Spielen mit perfekte und nicht perfekter Information?

Keyboard commands:

= turn,

= for-/backward,

= scroll

• Perfekt (Schach)
• Nicht perfekt (Jass)

Was ist der Suchraum?

Keyboard commands:

= turn,

= for-/backward,

= scroll

• Anzahl gültige Brettpositionen
• untere Grenze für Suchbaum

Was ist ein Suchbaum?

Keyboard commands:

= turn,

= for-/backward,

= scroll

• Knoten sind Spielpositionen / Spielzustände
• Kanten sind Aktionen / Spielzüge
• Blätter werden durch payoff functions definiert

Wie funktioniert Backward Induction?

• Baum von unten nach oben durcharbeiten
• immer bester Weg für den aktuellen Spieler markieren
• für sequenzielle endliche Spiele mit perfekter Information geeignet

Was bedeutet Rationalität?

Spieler nimmt nicht die schlechtere Alternative

Welche Arten von Lösungen werden bei endlichen-sequenziellen Spielen unterschieden?

• ultraschwach
– hat der erste Spieler ein Vorteil
– beispielsweise durch Existenzbeweise in Mathe
– Wissen das erste Personen einen Vorteil hat
– ohne genaue Strategie zu kennen
• schwache Lösung
– kann ein komplettes Spiel durchspielen
– Annahme dass der Gegner sich rational verhält
• starke Lösung
– immer durchsetzbar auch wenn nicht erster Spieler
– kann von jeder Position aus gewinnen

Was wird unter einem Nullsummenspiel verstanden?

• Vorteil für einen Spieler ist zum Nachteil des anderen Spielers
• Punktesumme für zwei Strategien ist immer 0

Was sind die Charakteristiken des Minimax-Algorithmus?

• gilt nur für einen Nullsummenspiel
• zwei Möglichkeiten / Ziele
– eigenen Gewinn maximieren
– Gewinn des Gegners minimieren

1 / 95

Card list

Study

dl4g

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google