核心概念
オフラインリインフォースメントラーニングにおいて、目標リターンと実際のリターンを整合させる手法を提案する。
要約
本研究では、オフラインリインフォースメントラーニングにおいて、目標リターンと実際のリターンの整合性を高める手法を提案している。従来のDecision Transformer (DT)は、リターン、状態、行動を一つの入力系列として扱っていたが、この設計では、リターンの影響が他の要素に埋もれてしまう問題があった。
提案手法のReturn-Aligned Decision Transformer (RADT)では、リターンの系列と状態-行動の系列を分離し、リターンと他の要素との関係性を明示的にモデル化する。具体的には、リターンと状態-行動の間のクロスアテンションと、リターンに応じて状態-行動の特徴量を適応的に変換するアダプティブレイヤーノーマライゼーションを導入している。
実験の結果、RADTはMuJoCoとAtariの両ドメインにおいて、目標リターンと実際のリターンの誤差を大幅に低減できることを示した。また、クロスアテンションとアダプティブレイヤーノーマライゼーションの各手法の有効性も確認された。これらの結果から、RADTは目標リターンに合わせた行動生成を実現できる強力な手法であると言える。
統計
目標リターンと実際のリターンの誤差は、MuJoCoドメインでDTの39.7%、Atariドメインで29.8%まで低減された。
引用
目標リターンと実際のリターンの整合性を高めることは、ゲームボットや教育ツールの性能調整、交通シミュレーションの非専門家の軌跡モデル化など、様々な応用場面で重要となる。
目標リターンと実際のリターンの誤差を大幅に低減できることから、RADTは目標リターンに合わせた行動生成を実現できる強力な手法であると言える。