本論文では、オフラインでの継続的強化学習(CORL)の課題に取り組むため、Decision Transformerを基盤とした新しい手法を提案している。
まず、CORLの課題を再考し、Decision Transformerがアクター・クリティック構造のオフラインアルゴリズムよりも適していることを示した。Decision Transformerは学習効率が高く、分布シフトの問題を回避でき、ゼロショット汎化能力に優れている。しかし、パラメータを一括更新するため、忘却問題が深刻化する。
そこで、2つの新しい手法を提案した。
MH-DT: 複数のヘッドを持つDecision Transformerで、タスク固有の知識を保持し、共通部分との知識共有を行う。また、蒸留と選択的リハーサルを導入し、現在のタスク学習を強化する。
LoRA-DT: リプレイバッファが利用できない場合に対応するため、重要度の低い重みを統合し、Decision Transformerのデシジョンを行うMLP層のみをLoRAで微調整する。これにより、メモリ効率が高く、忘却を防ぐことができる。
実験の結果、提案手法はベースラインを大きく上回る性能を示し、学習能力の向上とメモリ効率の向上を実現した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問