Core Concepts
オフラインの劣質な軌跡データを活用することで、視覚言語ナビゲーションエージェントの効率的なトレーニングが可能になる。
Abstract
本研究では、視覚言語ナビゲーション(VLN)タスクにおいて、オフラインの劣質な軌跡データを活用する新しい問題設定「VLN-ORL」を提案している。従来のVLNアプローチは専門家の軌跡データに依存していたが、そのようなデータを収集することは困難である。一方、劣質な軌跡データは容易に入手できる。
提案手法では、報酬トークンを用いてVLNエージェントをトレーニングする。報酬トークンは、エージェントの現在位置と目標位置の距離変化に基づいて定義される。これにより、エージェントは劣質な軌跡データからも効率的に学習できる。
実験では、R2RとRxR環境において、提案手法がベースラインモデルと比べて10-15%程度の性能向上を示した。特に、完全にランダムな軌跡データを用いた場合でも、約40%の大幅な性能向上が確認された。さらに、複雑な環境においても、提案手法が一貫して良好な結果を示した。これらの結果から、報酬トークンを用いたアプローチが、劣質なデータからVLNエージェントを効率的に学習させることができることが示された。
Stats
目標地点までの距離が減少した場合、報酬トークンの値は正の値となる。
目標地点から離れた場合、報酬トークンの値は負の値となる。
目標地点に到達した場合、報酬トークンの値は0となる。
Quotes
"オフラインの劣質な軌跡データを活用することで、VLNエージェントの効率的なトレーニングが可能になる。"
"報酬トークンを用いることで、劣質な軌跡データからもエージェントを効率的に学習させることができる。"
"提案手法は、複雑な環境においても一貫して良好な結果を示した。"