この論文では、オフラインデータセットを活用して混合品質データセットに対処するため、アドバンテージ重視ポリシー最適化(A2PO)手法が導入されています。A2POは、行動方針と関連付けられた行動分布を効果的に分離し、トレーニングデータ全体のアドバンテージ値を条件変数としてモデル化することで、高いアドバンテージ値に焦点を当てたエージェントポリシー最適化が可能です。実験結果は、A2POが優れたパフォーマンスを発揮し、他のオフラインRL競合手法を大幅に上回っていることを示しています。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yunpeng Qing... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07262.pdfYêu cầu sâu hơn