dl4g

5.0 (5)

Cyrille Ulmi

Kartei Details

Karten	95
Lernende	28
Sprache	Deutsch
Kategorie	Informatik
Stufe	Universität
Erstellt / Aktualisiert	24.01.2019 / 23.11.2023
Weblink	https://card2brain.ch/cards/20190124_dl4g?max=40&offset=80
Einbinden	<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Kartenliste

Was bedeutet Regularisierung und wieso wird es gebraucht?

• Penatlty auf den Gewichten
• z.B. Quadrate der Gewichte zur Loss-Funktion addieren
• um eine glättere Kurve zu bekommen
• verhindert overfitting

Was bedeutet Dropout und wieso wird es gebraucht? (RL)

• verwirft zufällig Knoten (auf 0 setzen)
• zwingt das Netzwerk Alternativen zu finden
• gibt stabileres Netzwerk

Was ist die Idee hinter Inception und Res-Net?

• Inception
– mehrere Layer nebeneinander und dann addieren
• Res-Net
– Shortcut zwischen einzelnen Knoten
– einfacheres Lernen von komplizierten Netzwerken

Was ist reinforcement learning?

• Ziel: Reward maximieren
• Reward kann durch Aktionen verändert werden
• Aktionen beeinflussen die Umgebung

Was ist reinforcement learning nicht?

• supervised learning
– es gibt keinen Supervisor der sagt was richtig ist
• unsupervised learning
– es werden auch keine Strukturen gesucht

Was sind die Eigenschaften von Reinforcement Learning?

• Verzögertes Feedback
• Zeit ist relevant
• Aktionen beeinflussen die Umgebung und die Daten

Was ist das Ziel von Reinforcement Learning?

Ein Reward Rt ist ein Feedback das angibt, wie gut sich der Agent zum Zeitpunkt t verhält

Welche Arten von RL Agenten gibt es?

• Value based: No Policy (implicit), Value Function
• Policy Based: Policy, No Value Function
• Actor Critic: Policy, Value Function
• Model Free: Policy and/or Value, No Model
• Model: Policy and/or Value Function, Model

Welche Varianten von greedy Algorithmen gibt es?

• greedy:
– Aktion wählen mit dem Maximalen geschätzten Wert
• non greedy:
– Zufällige Aktion wählen
• E-greedy
– mit Wahrscheinlichkeit beliebige Aktion auswählen
– mit 1 - Wahrscheinlichkeit maximale Aktion wählen

Wie kann eine Policy ausgearbeitet werden?

• Beginnen mit einer zufälligen Policy
• Berechnen der Value-Function v unter Berücksichtigung der aktuellen Policy
• Policy verbessern durch greedy-Auswahl der Aktionen aus v
• Wiederholen bis sich die Policy nicht mehr verändert