Khái niệm cốt lõi
ビデオベースの大視覚言語モデル(VLM)NaVidは、地図やオドメーター、深度入力なしで最先端のナビゲーション性能を実現します。
Tóm tắt
Vision-and-Language Navigation(VLN)は、エージェントが自然言語の指示に従って未知の環境で移動することを目指す重要な研究課題です。本論文では、NaVidがRGBカメラからのビデオストリームだけで次のステップアクションを出力し、SOTAパフォーマンスを達成する方法を提案しています。これにより、ロボットが人間の指示を理解し、正確なアクションを実行する能力が向上します。
Thống kê
NaVidは550kのナビゲーションサンプルと665kの大規模Webデータからトレーニングされました。
NaVidはシミュレーション環境と現実世界でSOTAパフォーマンスを達成しました。
NaVidは200以上の命令に対して66%の成功率を達成しました。
Trích dẫn
"NaVid achieves SOTA performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer."
"Our proposed VLM approach plans the next step for not only the navigation agents but also this research field."