Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
人間の好みに基づく最適な行動の学習
人間のフィードバックから学習する新しい手法: 強化学習を使わずに最適な行動を学習する
人間の好みは報酬の総和ではなく後悔度に基づいていることを利用し、強化学習を使わずに最適な行動を学習する新しい手法を提案する。
1