Завантажити Linnk AI
•
Помічник з досліджень
>
Увійти
ідея
-
強化学習におけるポリシーアラインメント
強化学習における人間からのフィードバックに基づくポリシーアラインメントのための統一的なフレームワーク
強化学習におけるポリシーアラインメントの問題を、上位レベルの報酬設計と下位レベルのポリシー最適化を含む統一的な二階層最適化フレームワークとして定式化し、従来のアプローチにおける課題を解決する。
1