Download Linnk AI
•
Forskningsassistent
>
Log på
indsigt
-
強化学習におけるポリシーアラインメント
強化学習における人間からのフィードバックに基づくポリシーアラインメントのための統一的なフレームワーク
強化学習におけるポリシーアラインメントの問題を、上位レベルの報酬設計と下位レベルのポリシー最適化を含む統一的な二階層最適化フレームワークとして定式化し、従来のアプローチにおける課題を解決する。
1