この論文では、オフラインデータセットを活用して混合品質データセットに対処するため、アドバンテージ重視ポリシー最適化(A2PO)手法が導入されています。A2POは、行動方針と関連付けられた行動分布を効果的に分離し、トレーニングデータ全体のアドバンテージ値を条件変数としてモデル化することで、高いアドバンテージ値に焦点を当てたエージェントポリシー最適化が可能です。実験結果は、A2POが優れたパフォーマンスを発揮し、他のオフラインRL競合手法を大幅に上回っていることを示しています。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yunpeng Qing... alle arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07262.pdfDomande più approfondite