Scarica Linnk AI
•
Assistente di Ricerca
>
Accedi
approfondimento
-
アドバンテージ重視ポリシー最適化
オフライン強化学習のためのアドバンテージ重視ポリシー最適化
混合品質データセットにおけるオフライン学習の制約衝突問題を解決するため、アドバンテージ重視ポリシー最適化(A2PO)手法を提案。
1