本論文は、オフラインリインフォースメントラーニングの課題に取り組んでいる。オフラインリインフォースメントラーニングとは、事前に収集されたデータセットから直接ポリシーを学習する手法である。
既存のオフラインリインフォースメントラーニング手法には2つの課題がある。1つは、学習したポリシーが観測データの分布に制限されてしまうため、未知の状態への一般化が難しい。もう1つは、モデルベースの手法では、短期的なロールアウトしか生成できず、長期的な高報酬トラジェクトリーを得られないため、ポリシー学習の改善が限定的である。
本論文では、これらの課題を解決するため、World Transformersと呼ばれる状態遷移と報酬関数のモデルを提案している。World Transformersは、オフラインデータから長期的な高報酬トラジェクトリーを生成することができる。具体的には、4つの戦略を提案し、オフラインデータを擾乱してWorld Transformersを用いて長期トラジェクトリーを生成する。最終的に、オリジナルのオフラインデータと生成したトラジェクトリーを組み合わせて、既存のオフラインリインフォースメントラーニング手法を学習する。
実験の結果、提案手法OTTO(Offline Trajectory Generalization through World Transformers for Offline Reinforcement Learning)は、既存のモデルフリーおよびモデルベースのオフラインリインフォースメントラーニング手法を大幅に改善することが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ziqi Zhao,Zh... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10393.pdfDeeper Inquiries