dl4g
dl4g
dl4g
Set of flashcards Details
Flashcards | 95 |
---|---|
Students | 28 |
Language | Deutsch |
Category | Computer Science |
Level | University |
Created / Updated | 24.01.2019 / 23.11.2023 |
Weblink |
https://card2brain.ch/box/20190124_dl4g
|
Embed |
<iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Create or copy sets of flashcards
With an upgrade you can create or copy an unlimited number of sets and use many more additional features.
Log in to see all the cards.
Was bedeutet Regularisierung und wieso wird es gebraucht?
• Penatlty auf den Gewichten
• z.B. Quadrate der Gewichte zur Loss-Funktion addieren
• um eine glättere Kurve zu bekommen
• verhindert overfitting
Was bedeutet Dropout und wieso wird es gebraucht? (RL)
• verwirft zufällig Knoten (auf 0 setzen)
• zwingt das Netzwerk Alternativen zu finden
• gibt stabileres Netzwerk
Was ist die Idee hinter Inception und Res-Net?
• Inception
– mehrere Layer nebeneinander und dann addieren
• Res-Net
– Shortcut zwischen einzelnen Knoten
– einfacheres Lernen von komplizierten Netzwerken
Was ist reinforcement learning?
• Ziel: Reward maximieren
• Reward kann durch Aktionen verändert werden
• Aktionen beeinflussen die Umgebung
Was ist reinforcement learning nicht?
• supervised learning
– es gibt keinen Supervisor der sagt was richtig ist
• unsupervised learning
– es werden auch keine Strukturen gesucht
Was sind die Eigenschaften von Reinforcement Learning?
• Verzögertes Feedback
• Zeit ist relevant
• Aktionen beeinflussen die Umgebung und die Daten
Was ist das Ziel von Reinforcement Learning?
Ein Reward Rt ist ein Feedback das angibt, wie gut sich der Agent zum Zeitpunkt t verhält
Welche Arten von RL Agenten gibt es?
• Value based: No Policy (implicit), Value Function
• Policy Based: Policy, No Value Function
• Actor Critic: Policy, Value Function
• Model Free: Policy and/or Value, No Model
• Model: Policy and/or Value Function, Model
Welche Varianten von greedy Algorithmen gibt es?
• greedy:
– Aktion wählen mit dem Maximalen geschätzten Wert
• non greedy:
– Zufällige Aktion wählen
• E-greedy
– mit Wahrscheinlichkeit beliebige Aktion auswählen
– mit 1 - Wahrscheinlichkeit maximale Aktion wählen
Wie kann eine Policy ausgearbeitet werden?
• Beginnen mit einer zufälligen Policy
• Berechnen der Value-Function v unter Berücksichtigung der aktuellen Policy
• Policy verbessern durch greedy-Auswahl der Aktionen aus v
• Wiederholen bis sich die Policy nicht mehr verändert
Was sind die Eigenschaften von endlichen-sequenziellen Spielen?
• eine endliche Anzahl Spieler mit einer endlichen Anzahl Aktionen
• die Aktionen werden sequenziell ausgewählt
• es wird eine endliche Anzahl Runden gespielt
• spätere Spieler sehen die Aktionen vorheriger Spieler
Was wird unter perfect recall verstanden?
perfekte Erinnerung an alle vorherigen Züge
Was ist eine Strategie?
sagt einem Spieler welche Aktion in diesem Zug auszuführen ist
Was ist eine Strategie Profil?
die ausgewählte Strategie eines Spielers
Was ist eine utility oder payoff function?
berechnet das Resultat für jede Aktion
Was sind die Komplexitätsfaktoren bei einer Spielanalyse?
• Anzahl Spieler
• Grösse des Suchraums (Anzahl gespielte Züge und Anzahl mögliche Aktionen)
• Kompetitiv vs. Kooperativ
• Stochastische Spiele (mit Zufall) vs. Deterministisch
• Perfekte vs. Nicht perfekte Information
Was ist nicht perfekte Information?
• das Spiel konnte nur teilweise beobachtet werden
• z.B. kennt man nicht die Karten der anderen Spieler
Was sind Beispiele von Spielen mit perfekte und nicht perfekter Information?
• Perfekt (Schach)
• Nicht perfekt (Jass)
Was ist ein Suchbaum?
• Knoten sind Spielpositionen / Spielzustände
• Kanten sind Aktionen / Spielzüge
• Blätter werden durch payoff functions definiert
Wie funktioniert Backward Induction?
• Baum von unten nach oben durcharbeiten
• immer bester Weg für den aktuellen Spieler markieren
• für sequenzielle endliche Spiele mit perfekter Information geeignet
Was bedeutet Rationalität?
Spieler nimmt nicht die schlechtere Alternative
Welche Arten von Lösungen werden bei endlichen-sequenziellen Spielen unterschieden?
• ultraschwach
– hat der erste Spieler ein Vorteil
– beispielsweise durch Existenzbeweise in Mathe
– Wissen das erste Personen einen Vorteil hat
– ohne genaue Strategie zu kennen
• schwache Lösung
– kann ein komplettes Spiel durchspielen
– Annahme dass der Gegner sich rational verhält
• starke Lösung
– immer durchsetzbar auch wenn nicht erster Spieler
– kann von jeder Position aus gewinnen
Was wird unter einem Nullsummenspiel verstanden?
• Vorteil für einen Spieler ist zum Nachteil des anderen Spielers
• Punktesumme für zwei Strategien ist immer 0
Was sind die Charakteristiken des Minimax-Algorithmus?
• gilt nur für einen Nullsummenspiel
• zwei Möglichkeiten / Ziele
– eigenen Gewinn maximieren
– Gewinn des Gegners minimieren
-
- 1 / 95
-