本論文では、オフラインリインフォースメントラーニングにおける分布のシフト問題に対して、新しい視点からのアプローチを提案している。
まず、状態を「アンカー」と「差分」に分解することで、未知の状態に対する一般化性能を高めるという着想に基づいている。具体的には、以下の手順を踏む:
このように、状態の分解と、既知の状態空間内に留まるようなアンカーの選択を通じて、関数近似器の一般化性能を高めることができる。
提案手法は、既存のオフラインリインフォースメントラーニングアルゴリズムに適用可能であり、D4RLベンチマークにおいて、CQL、IQL、MOPO、MOBILEなどの手法の性能を向上させることが示されている。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yeda Song,Do... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04682.pdfYêu cầu sâu hơn