dl4g
dl4g
dl4g
Kartei Details
| Karten | 95 | 
|---|---|
| Lernende | 28 | 
| Sprache | Deutsch | 
| Kategorie | Informatik | 
| Stufe | Universität | 
| Erstellt / Aktualisiert | 24.01.2019 / 23.11.2023 | 
| Weblink | 
                                
                                
                                https://card2brain.ch/box/20190124_dl4g
                             | 
| Einbinden | 
                                
                                
                                <iframe src="https://card2brain.ch/box/20190124_dl4g/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
                             | 
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
Was bedeutet Regularisierung und wieso wird es gebraucht?
 
• Penatlty auf den Gewichten
• z.B. Quadrate der Gewichte zur Loss-Funktion addieren
• um eine glättere Kurve zu bekommen
• verhindert overfitting
 
Was bedeutet Dropout und wieso wird es gebraucht? (RL)
• verwirft zufällig Knoten (auf 0 setzen)
• zwingt das Netzwerk Alternativen zu finden
• gibt stabileres Netzwerk
 
Was ist die Idee hinter Inception und Res-Net?
 
• Inception
– mehrere Layer nebeneinander und dann addieren
• Res-Net
– Shortcut zwischen einzelnen Knoten
– einfacheres Lernen von komplizierten Netzwerken
 
Was ist reinforcement learning?
 
• Ziel: Reward maximieren
• Reward kann durch Aktionen verändert werden
• Aktionen beeinflussen die Umgebung
 
Was ist reinforcement learning nicht?
 
• supervised learning
– es gibt keinen Supervisor der sagt was richtig ist
• unsupervised learning
– es werden auch keine Strukturen gesucht
Was sind die Eigenschaften von Reinforcement Learning?
 
• Verzögertes Feedback
• Zeit ist relevant
• Aktionen beeinflussen die Umgebung und die Daten
 
Was ist das Ziel von Reinforcement Learning?
 
Ein Reward Rt ist ein Feedback das angibt, wie gut sich der Agent zum Zeitpunkt t verhält
 
Welche Arten von RL Agenten gibt es?
 
• Value based: No Policy (implicit), Value Function
• Policy Based: Policy, No Value Function
• Actor Critic: Policy, Value Function
• Model Free: Policy and/or Value, No Model
• Model: Policy and/or Value Function, Model
 
Welche Varianten von greedy Algorithmen gibt es?
 
• greedy:
– Aktion wählen mit dem Maximalen geschätzten Wert
• non greedy:
– Zufällige Aktion wählen
• E-greedy
– mit  Wahrscheinlichkeit beliebige Aktion auswählen
– mit 1 -  Wahrscheinlichkeit maximale Aktion wählen
 
Wie kann eine Policy ausgearbeitet werden?
 
• Beginnen mit einer zufälligen Policy
• Berechnen der Value-Function v unter Berücksichtigung der aktuellen Policy
• Policy verbessern durch greedy-Auswahl der Aktionen aus v
• Wiederholen bis sich die Policy nicht mehr verändert
 
Was sind die Eigenschaften von endlichen-sequenziellen Spielen?
• eine endliche Anzahl Spieler mit einer endlichen Anzahl Aktionen
• die Aktionen werden sequenziell ausgewählt
• es wird eine endliche Anzahl Runden gespielt
• spätere Spieler sehen die Aktionen vorheriger Spieler
 
Was wird unter perfect recall verstanden?
 
perfekte Erinnerung an alle vorherigen Züge
 
Was ist eine Strategie?
 
sagt einem Spieler welche Aktion in diesem Zug auszuführen ist
 
Was ist eine Strategie Profil?
 
die ausgewählte Strategie eines Spielers
 
Was ist eine utility oder payoff function?
 
berechnet das Resultat für jede Aktion
 
Was sind die Komplexitätsfaktoren bei einer Spielanalyse?
 
• Anzahl Spieler
• Grösse des Suchraums (Anzahl gespielte Züge und Anzahl mögliche Aktionen)
• Kompetitiv vs. Kooperativ
• Stochastische Spiele (mit Zufall) vs. Deterministisch
• Perfekte vs. Nicht perfekte Information
 
Was ist nicht perfekte Information?
 
• das Spiel konnte nur teilweise beobachtet werden
• z.B. kennt man nicht die Karten der anderen Spieler
 
Was sind Beispiele von Spielen mit perfekte und nicht perfekter Information?
• Perfekt (Schach)
• Nicht perfekt (Jass)
 
Was ist ein Suchbaum?
• Knoten sind Spielpositionen / Spielzustände
• Kanten sind Aktionen / Spielzüge
• Blätter werden durch payoff functions definiert
 
Wie funktioniert Backward Induction?
• Baum von unten nach oben durcharbeiten
• immer bester Weg für den aktuellen Spieler markieren
• für sequenzielle endliche Spiele mit perfekter Information geeignet
 
Was bedeutet Rationalität?
 
Spieler nimmt nicht die schlechtere Alternative
 
Welche Arten von Lösungen werden bei endlichen-sequenziellen Spielen unterschieden?
 
• ultraschwach
– hat der erste Spieler ein Vorteil
– beispielsweise durch Existenzbeweise in Mathe
– Wissen das erste Personen einen Vorteil hat
– ohne genaue Strategie zu kennen
• schwache Lösung
– kann ein komplettes Spiel durchspielen
– Annahme dass der Gegner sich rational verhält
• starke Lösung
– immer durchsetzbar auch wenn nicht erster Spieler
– kann von jeder Position aus gewinnen
 
Was wird unter einem Nullsummenspiel verstanden?
 
• Vorteil für einen Spieler ist zum Nachteil des anderen Spielers
• Punktesumme für zwei Strategien ist immer 0
 
Was sind die Charakteristiken des Minimax-Algorithmus?
 
• gilt nur für einen Nullsummenspiel
• zwei Möglichkeiten / Ziele
– eigenen Gewinn maximieren
– Gewinn des Gegners minimieren
- 
                
- 1 / 95
- 
                
 
	