Grunnleggende konsepter
Wir schlagen einen einfachen Imitations-Lernalgorithmus vor, der die Stärken mehrerer suboptimaler Basislinien-Richtlinien kombiniert, um eine Richtlinie zu lernen, die auf dem gesamten Zustandsraum genauso gut oder besser abschneidet als die beste Kombination der Basislinien.
Sammendrag
Die Arbeit untersucht ein Reinforcement-Learning-Problem, bei dem wir eine Reihe von Trajektorien haben, die mit K Basislinien-Richtlinien gesammelt wurden. Jede dieser Richtlinien kann in Isolation ziemlich suboptimal sein, aber in komplementären Teilen des Zustandsraums eine starke Leistung aufweisen. Das Ziel ist es, eine Richtlinie zu lernen, die genauso gut wie die beste Kombination der Basislinien auf dem gesamten Zustandsraum abschneidet.
Der Algorithmus BC-MAX führt dies durch einfaches Imitations-Lernen durch, indem er in jedem Ausgangszustand die Trajektorie der Richtlinie mit der höchsten Belohnung imitiert. Die Autoren zeigen eine Obergrenze für die erwartete Regret-Leistung der gelernten Richtlinie im Vergleich zur maximal möglichen Belohnung in jedem Ausgangszustand durch Auswahl der besten Basislinie für diesen Zustand.
Die Autoren wenden BC-MAX auch auf zwei Datensätze zur Optimierung des Compiler-Inlinings für die Binärgröße an und zeigen, dass sie starke Basislinien in beiden Fällen übertreffen. Sie demonstrieren die Vielseitigkeit von BC-MAX, indem sie es iterativ auf den anfänglichen Experten und alle vorherigen Richtlinien anwenden, die in früheren Iterationen trainiert wurden.
Statistikk
Die Größe des finalen Programmbinärs beträgt etwa 213,32 MB, wenn es mit der PPO-Richtlinie kompiliert wird.
Sitater
Keine relevanten Zitate gefunden.