Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
報酬非依存の選好ベースの強化学習
報酬非依存の選好ベースの強化学習の証明可能な枠組み
報酬非依存の探索的軌跡を収集し、人間の選好フィードバックを活用して、未知の報酬関数を効率的に学習する。
1