本研究では、オフラインリインフォースメントラーニングにおいて、目標リターンと実際のリターンの整合性を高める手法を提案している。従来のDecision Transformer (DT)は、リターン、状態、行動を一つの入力系列として扱っていたが、この設計では、リターンの影響が他の要素に埋もれてしまう問題があった。
提案手法のReturn-Aligned Decision Transformer (RADT)では、リターンの系列と状態-行動の系列を分離し、リターンと他の要素との関係性を明示的にモデル化する。具体的には、リターンと状態-行動の間のクロスアテンションと、リターンに応じて状態-行動の特徴量を適応的に変換するアダプティブレイヤーノーマライゼーションを導入している。
実験の結果、RADTはMuJoCoとAtariの両ドメインにおいて、目標リターンと実際のリターンの誤差を大幅に低減できることを示した。また、クロスアテンションとアダプティブレイヤーノーマライゼーションの各手法の有効性も確認された。これらの結果から、RADTは目標リターンに合わせた行動生成を実現できる強力な手法であると言える。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Tsunehiko Ta... في arxiv.org 04-24-2024
https://arxiv.org/pdf/2402.03923.pdfاستفسارات أعمق