Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
強化学習におけるポリシーアラインメント
強化学習における人間からのフィードバックに基づくポリシーアラインメントのための統一的なフレームワーク
強化学習におけるポリシーアラインメントの問題を、上位レベルの報酬設計と下位レベルのポリシー最適化を含む統一的な二階層最適化フレームワークとして定式化し、従来のアプローチにおける課題を解決する。
1