本研究では、好みベース強化学習(PBRL)の新しい手法であるMulti-Type Preference Learning (MTPL)を提案している。MTPL は、人間の明示的な好みと等しい好みの両方を同時に学習することで、人間の好みに関する理解を深め、フィードバック効率を向上させる。
具体的には、以下の2つのタスクを同時に学習する:
これらの2つのタスクを同時に学習することで、MTPL は人間の好みに関する理解を深め、より効率的にフィードバックを活用できるようになる。
実験の結果、MTPL は4つの最先端手法に適用されたときに、平均パフォーマンスを27.34%向上させることができた。特に、明示的な好みが少ない課題では大幅な性能向上が見られた(Point mass easy: 40,490%増、Hopper hop: 3,188%増)。これは、等しい好みの情報を活用することで、人間のフィードバックをより包括的に理解できるようになったことを示している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania