Diese Arbeit bietet einen systematischen Überblick über die wesentlichen Eigenschaften, die gute Repräsentationen in der Verstärkungslernung aufweisen sollten, sowie über effektive Strategien zum Erlernen solcher Repräsentationen.
Die Autoren beginnen ihre Analyse mit grundlegenden Prinzipien, indem sie verschiedene in früheren Arbeiten vorgeschlagene Repräsentationen für Markov-Entscheidungsprozesse (MDPs) und teilweise beobachtbare Markov-Entscheidungsprozesse (POMDPs) vergleichen und verbinden. Dabei zeigt sich, dass diese Repräsentationen alle durch eine selbstvorhersagende Bedingung verbunden sind - der Encoder kann seinen nächsten latenten Zustand vorhersagen.
Anschließend untersuchen die Autoren, wie man eine solche selbstvorhersagende Bedingung in der Verstärkungslernung lernen kann, was aufgrund des Bootstrapping-Effekts eine schwierige Aufgabe darstellt. Sie liefern neue Erkenntnisse darüber, warum die weit verbreitete "Stop-Gradienten"-Technik, bei der die Parameter des Encoders beim Verwenden als Ziel nicht aktualisiert werden, das Potenzial hat, die gewünschte Bedingung ohne Repräsentationskollaps in POMDPs zu lernen.
Basierend auf ihren neuen theoretischen Erkenntnissen führen die Autoren einen minimalistischen Verstärkungslernalgorithmus ein, der selbstvorhersagende Repräsentationen vollständig end-to-end mit einem einzigen Hilfsverlust lernt, ohne die Notwendigkeit eines Belohnungsmodells (und damit die Entfernung der Planung), Belohnungsregularisierung, Mehrschrittvorhersagen und -projektionen sowie Metriklernen.
Umfangreiche Experimente über drei Benchmarks hinweg liefern empirische Belege für alle theoretischen Vorhersagen unter Verwendung des einfachen Algorithmus. Insgesamt könnte diese Arbeit dazu beitragen, die langjährige Herausforderung des Lernens von Repräsentationen in MDPs und POMDPs anzugehen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문