Der Artikel präsentiert einen neuen Ansatz für Hybrid-Verstärktes Lernen (Hybrid RL), bei dem Online- und Offline-Daten kombiniert werden, um die Leistung zu verbessern. Der Hauptbeitrag ist die Entwicklung eines Regretbound-Theorems für einen modifizierten optimistischen Online-RL-Algorithmus namens DISC-GOLF, der einfach die Offline-Daten zum Erfahrungsreplay-Puffer hinzufügt.
Der Schlüssel ist, dass der Regretbound durch die beste mögliche Aufteilung des Zustands-Aktions-Raums in einen offline und einen online Anteil charakterisiert wird, ohne dass der Algorithmus diese Aufteilung kennen muss. Dies ermöglicht es, mit Offline-Daten von beliebig schlechter Qualität umzugehen, ohne die strengen Annahmen zu benötigen, die in früheren Arbeiten erforderlich waren.
Die Analyse wird für verschiedene MDP-Familien wie tabulare, lineare und Block-MDPs spezialisiert, wobei in jedem Fall Verbesserungen gegenüber rein online- oder offline-basiertem RL gezeigt werden. Numerische Simulationen bestätigen, dass der hybride Ansatz die Erkundung des nicht gut abgedeckten Teils des Zustands-Aktions-Raums fördert.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kevin Tan,Zi... في arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.09701.pdfاستفسارات أعمق