本研究では、オフラインリインフォースメントラーニングにおいて、目標リターンと実際のリターンの整合性を高める手法を提案している。従来のDecision Transformer (DT)は、リターン、状態、行動を一つの入力系列として扱っていたが、この設計では、リターンの影響が他の要素に埋もれてしまう問題があった。
提案手法のReturn-Aligned Decision Transformer (RADT)では、リターンの系列と状態-行動の系列を分離し、リターンと他の要素との関係性を明示的にモデル化する。具体的には、リターンと状態-行動の間のクロスアテンションと、リターンに応じて状態-行動の特徴量を適応的に変換するアダプティブレイヤーノーマライゼーションを導入している。
実験の結果、RADTはMuJoCoとAtariの両ドメインにおいて、目標リターンと実際のリターンの誤差を大幅に低減できることを示した。また、クロスアテンションとアダプティブレイヤーノーマライゼーションの各手法の有効性も確認された。これらの結果から、RADTは目標リターンに合わせた行動生成を実現できる強力な手法であると言える。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문