核心概念
言語を知覚表現として活用することで、少量のデータでも効率的にナビゲーションを学習できる。また、言語表現は環境の違いを吸収しやすく、シミュレーション環境からの知識移転が容易になる。
要約
本研究では、言語を経路探索のための知覚表現として活用する手法を提案している。具体的には、画像キャプショニングやオブジェクト検出のシステムを使って、エージェントの視野を自然言語で記述する。その言語表現をもとに、事前学習された言語モデルをファインチューニングすることで、指示に従って最適な行動を選択できるようにする。
この手法の利点は以下の通り:
- 少量のデータでも効率的に学習できる
- 10-100個の実際の経路データに加え、GPT-4を使って大量の合成データを生成し、それらを組み合わせてファインチューニングすることで、ビジョンベースの手法を上回る性能を達成できる。
- ドメイン間の知識移転が容易
- シミュレーション環境で学習したナビゲーションポリシーを、現実世界の環境に容易に適用できる。これは、言語表現がドメイン間の違いを吸収しやすいためと考えられる。
- ビジョンベースの手法との組み合わせで性能向上
- 言語表現とビジョンベースの特徴を組み合わせることで、単独の手法よりも高い性能が得られる。
全体として、言語を知覚表現として活用することで、少量データや異なる環境への適用など、従来のビジョンベースの手法では課題のあった状況でも、効率的にナビゲーションを学習できることが示された。
統計
10個の経路データから10,000個の合成経路データを生成することで、ビジョンベースの手法を上回る性能が得られた。
シミュレーション環境で学習したナビゲーションポリシーを、現実世界の環境に適用した際、ビジョンベースの手法よりも高い転移性能を示した。
言語表現とビジョンベースの特徴を組み合わせることで、単独の手法よりも高い性能が得られた。