Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
アドバンテージ重視ポリシー最適化
オフライン強化学習のためのアドバンテージ重視ポリシー最適化
混合品質データセットにおけるオフライン学習の制約衝突問題を解決するため、アドバンテージ重視ポリシー最適化(A2PO)手法を提案。
1