本論文は、人間の好みに基づいて最適な行動を学習する新しい手法を提案している。従来の強化学習ベースの手法は、人間の好みが報酬の総和に基づいていると仮定していたが、最近の研究では人間の好みは最適な行動からの後悔度に基づいていることが分かっている。
提案手法では、この後悔度に基づく人間の好みモデルを利用し、強化学習を使わずに最適な行動を直接学習する。具体的には、最大エントロピー強化学習の枠組みを用いて、最適な行動の対数確率が最適な後悔度に比例することを示し、この関係性を利用した教師あり学習の目的関数を導出している。
この目的関数は、好みデータに基づいて最適な行動を直接学習できるため、報酬関数の学習や強化学習のような複雑な最適化過程を必要としない。実験では、従来手法と比較して、高次元の操作タスクでも効率的に最適な行動を学習できることを示している。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문