Keskeiset käsitteet
提案するRecurrent Action Transformer with Memory (RATE)モデルは、再帰的なメモリメカニズムを活用することで、長期的な文脈情報を保持し、メモリ集約型の環境での強化学習タスクの性能を大幅に向上させることができる。
Tiivistelmä
本論文では、Recurrent Action Transformer with Memory (RATE)と呼ばれる新しい強化学習モデルを提案している。RATEは、トランスフォーマーにメモリメカニズムを組み込むことで、長期的な文脈情報を保持できるようになっている。
具体的には以下の通り:
従来のトランスフォーマーでは、行動の決定に必要な過去の情報がすべて入力系列に含まれている必要があるが、系列長の制限から重要な情報が失われてしまう問題があった。
RATEでは、メモリトークンを導入することで、過去の情報を効率的に保持・活用できるようになっている。
メモリ集約型の環境(VizDoom-Two-Colors、T-Maze)では、RATEが従来手法よりも大幅に高い性能を示した。
一方で、メモリを必要としない環境(Atari、MuJoCo)でも、RATEは従来手法と同等以上の性能を発揮した。
RATEのメモリメカニズムについて詳細な分析を行い、メモリトークンが重要な役割を果たしていることを示した。
以上より、RATEは長期記憶を活用した強化学習の新しいアプローチとして期待できる。
Tilastot
メモリ集約型環境(VizDoom-Two-Colors)での平均報酬:
RATE: 16.46 ± 6.90
DT90: 6.08 ± 1.62
メモリ集約型環境(VizDoom-Two-Colors)での平均ステップ数:
RATE: 744.96 ± 222.90
DT90: 423.22 ± 33.99