Core Concepts
本研究では、多タスク環境における人間の嗜好を表現する多次元の嗜好表現を学習し、その表現を条件とした拡散モデルを用いて、人間の嗜好に整合した軌道を生成する手法を提案する。
Abstract
本研究の主な内容は以下の通りである:
多タスク環境における人間の嗜好を表現する多次元の嗜好表現を学習する。嗜好表現は、同一タスク内の好ましい軌道と好ましくない軌道、および異なるタスクの軌道を区別できるよう学習される。また、各タスクにおける最適な嗜好表現も学習される。
学習した嗜好表現を条件とした拡散モデルを用いて、人間の嗜好に整合した軌道を生成する。拡散モデルの学習時に、生成された軌道と嗜好表現の相互情報量を最大化する正則化項を導入することで、生成された軌道と嗜好表現の整合性を高める。
提案手法は、D4RL ベンチマークの単一タスクシナリオと、Meta-World ベンチマークの多タスクシナリオの両方で優れた性能を示す。また、未知のタスクに対しても良好な一般化性能を発揮する。
多次元の嗜好表現と相互情報量の正則化項が、提案手法の性能向上に重要な役割を果たすことを示す。
Stats
多タスク環境では、同一タスク内の好ましい軌道と好ましくない軌道の間の距離が大きく、異なるタスクの軌道との距離も大きくなる。
生成された軌道は、最適な嗜好表現に近い位置に分布する。
Quotes
"本研究では、多タスク環境における人間の嗜好を表現する多次元の嗜好表現を学習し、その表現を条件とした拡散モデルを用いて、人間の嗜好に整合した軌道を生成する手法を提案する。"
"提案手法は、D4RL ベンチマークの単一タスクシナリオと、Meta-World ベンチマークの多タスクシナリオの両方で優れた性能を示す。また、未知のタスクに対しても良好な一般化性能を発揮する。"