Core Concepts
Der Kern dieser Arbeit ist ein modellbasierter Ansatz für Meta-Verstärkungslernen, bei dem zunächst die Verteilung der Trainingsaufgaben mithilfe von Dichteschätzungstechniken gelernt und anschließend eine Bayes-optimale Politik auf Basis dieser geschätzten Verteilung trainiert wird. Dieser Ansatz ermöglicht es, die Struktur der Aufgabenverteilung auszunutzen und deutlich bessere Generalisierungsgarantien als bisherige Arbeiten zu erzielen.
Abstract
Die Arbeit befasst sich mit dem Meta-Verstärkungslernen, bei dem ein Agent aus einer Reihe von Trainingsaufgaben lernt, wie er eine neue, ähnliche Aufgabe schnell lösen kann. Der optimale Meta-RL-Algorithmus, auch als Bayes-optimales Verhalten bezeichnet, ist zwar definiert, aber es ist unklar, wie viele Trainingsaufgaben benötigt werden, um sich diesem Optimum mit hoher Wahrscheinlichkeit anzunähern.
Die Autoren schlagen einen modellbasierten Ansatz vor, bei dem zunächst die Verteilung der Trainingsaufgaben mithilfe von Dichteschätzungstechniken gelernt und anschließend eine Bayes-optimale Politik auf Basis dieser geschätzten Verteilung trainiert wird. Im Vergleich zu einem vorherigen modellfreien Ansatz zeigt dieser Ansatz deutlich bessere theoretische Garantien, insbesondere wenn die Aufgabenverteilung eine niedrigdimensionale Struktur aufweist.
Darüber hinaus demonstrieren die Autoren, dass dieser Ansatz auch in der Praxis, wenn er in den state-of-the-art VariBAD-Algorithmus integriert wird, zu Verbesserungen bei der Generalisierung auf ungesehene Aufgaben führt.
Stats
Die Aufgabenverteilung liegt in einem d-dimensionalen Parameterraum Θ vor, der durch eine Abbildung g : Θ → M auf den Raum der möglichen Markov-Entscheidungsprozesse (MDPs) M abgebildet wird.
Quotes
"Der Kern dieser Arbeit ist ein modellbasierter Ansatz für Meta-Verstärkungslernen, bei dem zunächst die Verteilung der Trainingsaufgaben mithilfe von Dichteschätzungstechniken gelernt und anschließend eine Bayes-optimale Politik auf Basis dieser geschätzten Verteilung trainiert wird."
"Dieser Ansatz ermöglicht es, die Struktur der Aufgabenverteilung auszunutzen und deutlich bessere Generalisierungsgarantien als bisherige Arbeiten zu erzielen."