Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
疎な報酬環境における効率的な探索
疎な報酬を伴う環境における軌道指向型の方策最適化
オフラインの専門家の軌道を指針として活用し、状態-行動の訪問分布を専門家の軌道に整合させることで、効率的な探索と信頼できる報酬帰属を実現する。
1