Centrala begrepp
Ein einfacher Ansatz, um bestehende optimistische Online-RL-Algorithmen durch Einbeziehung von Offline-Daten zu verbessern, kann zu ähnlichen nachweisbaren Gewinnen führen wie komplexere Ansätze, selbst wenn die Offline-Daten von schlechter Qualität sind.
Sammanfattning
Der Artikel präsentiert einen neuen Ansatz für Hybrid-Verstärktes Lernen (Hybrid RL), bei dem Online- und Offline-Daten kombiniert werden, um die Leistung zu verbessern. Der Hauptbeitrag ist die Entwicklung eines Regretbound-Theorems für einen modifizierten optimistischen Online-RL-Algorithmus namens DISC-GOLF, der einfach die Offline-Daten zum Erfahrungsreplay-Puffer hinzufügt.
Der Schlüssel ist, dass der Regretbound durch die beste mögliche Aufteilung des Zustands-Aktions-Raums in einen offline und einen online Anteil charakterisiert wird, ohne dass der Algorithmus diese Aufteilung kennen muss. Dies ermöglicht es, mit Offline-Daten von beliebig schlechter Qualität umzugehen, ohne die strengen Annahmen zu benötigen, die in früheren Arbeiten erforderlich waren.
Die Analyse wird für verschiedene MDP-Familien wie tabulare, lineare und Block-MDPs spezialisiert, wobei in jedem Fall Verbesserungen gegenüber rein online- oder offline-basiertem RL gezeigt werden. Numerische Simulationen bestätigen, dass der hybride Ansatz die Erkundung des nicht gut abgedeckten Teils des Zustands-Aktions-Raums fördert.
Statistik
Der Regretbound hängt von dem Verhältnis der Anzahl der Online- und Offline-Episoden ab: O(√(Non/Noff)).
Für tabulare MDPs ist der Regretbound O(√(H^5 S A Non/Noff + H^5 S A max_h |Xon,h| √Non)).
Für lineare MDPs ist der Regretbound O(√(d H^5 Non/Noff + d H^5 √Non)).
Für Block-MDPs ist der Regretbound O(√(H^4 Non/Noff + H^4 max_h |¯Xon,h| √Non)).
Citat
"Ein gut entworfener Online-Algorithmus sollte die 'Lücken' im Offline-Datensatz 'auffüllen', indem er Zustände und Aktionen erkundet, die die Verhaltenspolitik nicht erkundet hat."
"Im Gegensatz zu früheren Ansätzen, die sich darauf konzentrieren, die Offline-Datenverteilung zu schätzen, um die Online-Exploration zu leiten, zeigen wir, dass eine natürliche Erweiterung von Standard-optimistischen Online-Algorithmen - sie durch Einbeziehung des Offline-Datensatzes in den Erfahrungsreplay-Puffer aufzuwärmen - ähnliche nachweisbare Gewinne aus Hybridaten erzielt, auch wenn der Offline-Datensatz keine Einzelpolitik-Konzentrierbarkeit aufweist."