Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
疎な報酬環境における効率的な探索
疎な報酬を伴う環境における軌道指向型の方策最適化
オフラインの専門家の軌道を指針として活用し、状態-行動の訪問分布を専門家の軌道に整合させることで、効率的な探索と信頼できる報酬帰属を実現する。
1