Khái niệm cốt lõi
本稿では、データセット内の軌道から分岐を生成することでDecision Transformer (DT) を強化する拡散ベースの軌道分岐生成 (BG) を提案し、DTが劣った軌道に収束することを防ぎ、より良い軌道に移動できる方策を学習できるようにする。
Tóm tắt
拡散ベースの軌道分岐生成によるDecision Transformerの性能向上
この研究論文は、オフライン強化学習におけるDecision Transformer (DT) モデルの課題である、データセット内の劣った軌道への収束を克服することを目的としています。
本論文では、拡散ベースの軌道分岐生成 (BG) と呼ばれる新しい手法を提案しています。BGは、拡散モデルを用いてデータセット内の軌道から分岐を生成し、より高い報酬につながる軌道へとDTを導きます。具体的には、以下の手順で実現されます。
データセット内の軌道からセグメントをランダムにサンプリングします。
軌道価値関数 (TVF) を用いて、サンプリングされたセグメントの将来の報酬を予測します。
予測された報酬とサンプリングされたセグメントを組み合わせ、拡散モデルの条件として入力します。
拡散モデルは、条件に基づいて軌道の分岐を生成します。
生成された分岐を元の軌道セグメントと連結し、データセット内の軌道の拡張として扱います。
拡張されたデータセットを用いて、DTを従来の方法で学習します。
さらに、生成された分岐と元の軌道セグメント間の整合性を確保するために、分岐フィルタを設計し、報酬の連続性に基づいて生成された分岐をフィルタリングします。