本研究では、ロボットの移動経路を人間の嗜好に合わせて最適化するために、アンサンブルポリシーを用いたクエリ生成手法を提案している。
まず、ゴール距離に応じて行動の多様性を促進する正則化項を導入することで、アンサンブルポリシーを生成する。これにより、同一の環境設定に対して、多様な移動経路を生成することができる。
次に、生成された移動経路を人間に提示し、人間の嗜好を収集する。提案手法では、同一の環境設定に対する移動経路を提示するため、人間の嗜好を効率的に学習できる。
最後に、収集した人間の嗜好に基づいて、移動ポリシーの最適化を行う。実験の結果、提案手法は少数のクエリで人間の嗜好を効率的に学習でき、従来手法よりも優れた性能を示すことが分かった。
また、ロボットの移動行動を直感的に理解できる新しい可視化手法を提案している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jorge de Heu... a las arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04852.pdfConsultas más profundas