オフライン強化学習は、環境との対話ができないため、分布外(OOD)ポイントの推定に直面します。既存の方法では、Q関数を悲観的にするか、ポリシーを制御してOODアクションを除外します。しかし、これらの方法は過度に保守的であるか、OOD領域を正確に特定できません。この問題を克服するために、CPEDメソッドが提案されました。CPEDは明示的な行動ポリシーの密度を推定するためにFlow-GANモデルを利用し、安全領域を正確に特定して保守的な学習ポリシーから逸脱します。理論的結果と実験結果から見ると、CPEDはさまざまな標準オフライン強化学習タスクで既存の代替手法よりも優れた成績を収めます。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Jing Zhang,C... ב- arxiv.org 03-06-2024
https://arxiv.org/pdf/2301.12130.pdfשאלות מעמיקות