dl4g

dl4g

dl4g

Cyrille Ulmi

Cyrille Ulmi

Kartei Details

Karten 95
Lernende 28
Sprache Deutsch
Kategorie Informatik
Stufe Universität
Erstellt / Aktualisiert 24.01.2019 / 23.11.2023
Weblink
https://card2brain.ch/box/20190124_dl4g
Einbinden
<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was bedeutet Regularisierung und wieso wird es gebraucht?
 

• Penatlty auf den Gewichten
• z.B. Quadrate der Gewichte zur Loss-Funktion addieren
• um eine glättere Kurve zu bekommen
• verhindert overfitting
 

Was bedeutet Dropout und wieso wird es gebraucht? (RL)

• verwirft zufällig Knoten (auf 0 setzen)
• zwingt das Netzwerk Alternativen zu finden
• gibt stabileres Netzwerk
 

Was ist die Idee hinter Inception und Res-Net?
 

• Inception
– mehrere Layer nebeneinander und dann addieren
• Res-Net
– Shortcut zwischen einzelnen Knoten
– einfacheres Lernen von komplizierten Netzwerken
 

Was ist reinforcement learning?
 

• Ziel: Reward maximieren
• Reward kann durch Aktionen verändert werden
• Aktionen beeinflussen die Umgebung
 

Was ist reinforcement learning nicht?
 

• supervised learning
– es gibt keinen Supervisor der sagt was richtig ist
• unsupervised learning
– es werden auch keine Strukturen gesucht

Was sind die Eigenschaften von Reinforcement Learning?
 

• Verzögertes Feedback
• Zeit ist relevant
• Aktionen beeinflussen die Umgebung und die Daten
 

Was ist das Ziel von Reinforcement Learning?
 

Ein Reward Rt ist ein Feedback das angibt, wie gut sich der Agent zum Zeitpunkt t verhält
 

Welche Arten von RL Agenten gibt es?
 

• Value based: No Policy (implicit), Value Function
• Policy Based: Policy, No Value Function
• Actor Critic: Policy, Value Function
• Model Free: Policy and/or Value, No Model
• Model: Policy and/or Value Function, Model
 

Welche Varianten von greedy Algorithmen gibt es?
 

• greedy:
– Aktion wählen mit dem Maximalen geschätzten Wert
• non greedy:
– Zufällige Aktion wählen
• E-greedy
– mit  Wahrscheinlichkeit beliebige Aktion auswählen
– mit 1 -  Wahrscheinlichkeit maximale Aktion wählen
 

Wie kann eine Policy ausgearbeitet werden?
 

• Beginnen mit einer zufälligen Policy
• Berechnen der Value-Function v unter Berücksichtigung der aktuellen Policy
• Policy verbessern durch greedy-Auswahl der Aktionen aus v
• Wiederholen bis sich die Policy nicht mehr verändert
 

Wie funktioniert Backward Induction?
 

Wie funktioniert der Minimax-Algorithmus?
 

Was ist die Formel für UCB?

Erklären Sie den Algorithmus, welcher 1997 in Schach gewonnen hat.

Wie heissen die 4 Phasen von MCTS und wie würden diese visuell aussehen?