本研究では、視覚言語ナビゲーション(VLN)タスクにおいて、オフラインの劣質な軌跡データを活用する新しい問題設定「VLN-ORL」を提案している。従来のVLNアプローチは専門家の軌跡データに依存していたが、そのようなデータを収集することは困難である。一方、劣質な軌跡データは容易に入手できる。
提案手法では、報酬トークンを用いてVLNエージェントをトレーニングする。報酬トークンは、エージェントの現在位置と目標位置の距離変化に基づいて定義される。これにより、エージェントは劣質な軌跡データからも効率的に学習できる。
実験では、R2RとRxR環境において、提案手法がベースラインモデルと比べて10-15%程度の性能向上を示した。特に、完全にランダムな軌跡データを用いた場合でも、約40%の大幅な性能向上が確認された。さらに、複雑な環境においても、提案手法が一貫して良好な結果を示した。これらの結果から、報酬トークンを用いたアプローチが、劣質なデータからVLNエージェントを効率的に学習させることができることが示された。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы