dl4g
dl4g
dl4g
Kartei Details
Karten | 95 |
---|---|
Lernende | 28 |
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 24.01.2019 / 23.11.2023 |
Weblink |
https://card2brain.ch/box/20190124_dl4g
|
Einbinden |
<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was bedeutet Regularisierung und wieso wird es gebraucht?
• Penatlty auf den Gewichten
• z.B. Quadrate der Gewichte zur Loss-Funktion addieren
• um eine glättere Kurve zu bekommen
• verhindert overfitting
Was bedeutet Dropout und wieso wird es gebraucht? (RL)
• verwirft zufällig Knoten (auf 0 setzen)
• zwingt das Netzwerk Alternativen zu finden
• gibt stabileres Netzwerk
Was ist die Idee hinter Inception und Res-Net?
• Inception
– mehrere Layer nebeneinander und dann addieren
• Res-Net
– Shortcut zwischen einzelnen Knoten
– einfacheres Lernen von komplizierten Netzwerken
Was ist reinforcement learning?
• Ziel: Reward maximieren
• Reward kann durch Aktionen verändert werden
• Aktionen beeinflussen die Umgebung
Was ist reinforcement learning nicht?
• supervised learning
– es gibt keinen Supervisor der sagt was richtig ist
• unsupervised learning
– es werden auch keine Strukturen gesucht
Was sind die Eigenschaften von Reinforcement Learning?
• Verzögertes Feedback
• Zeit ist relevant
• Aktionen beeinflussen die Umgebung und die Daten
Was ist das Ziel von Reinforcement Learning?
Ein Reward Rt ist ein Feedback das angibt, wie gut sich der Agent zum Zeitpunkt t verhält
Welche Arten von RL Agenten gibt es?
• Value based: No Policy (implicit), Value Function
• Policy Based: Policy, No Value Function
• Actor Critic: Policy, Value Function
• Model Free: Policy and/or Value, No Model
• Model: Policy and/or Value Function, Model
Welche Varianten von greedy Algorithmen gibt es?
• greedy:
– Aktion wählen mit dem Maximalen geschätzten Wert
• non greedy:
– Zufällige Aktion wählen
• E-greedy
– mit Wahrscheinlichkeit beliebige Aktion auswählen
– mit 1 - Wahrscheinlichkeit maximale Aktion wählen
Wie kann eine Policy ausgearbeitet werden?
• Beginnen mit einer zufälligen Policy
• Berechnen der Value-Function v unter Berücksichtigung der aktuellen Policy
• Policy verbessern durch greedy-Auswahl der Aktionen aus v
• Wiederholen bis sich die Policy nicht mehr verändert