Cog-GAは、大規模言語モデルを活用し、認知地図の構築、メモリの検索、ナビゲーションの振り返りなど、人間のような認知プロセスをシミュレーションすることで、連続環境における視覚言語ナビゲーションを実現する。
本研究は、視覚言語ナビゲーションタスクにおいて、事前融合段階でのモダリティアラインメントを実現するデュアルレベルアラインメントフレームワークを提案する。このフレームワークは、命令-履歴レベルと目印-観察レベルの2つのレベルでアラインメントを行い、クロスモーダル相互作用と行動決定を強化する。
言語を知覚表現として活用することで、少量のデータでも効率的にナビゲーションを学習できる。また、言語表現は環境の違いを吸収しやすく、シミュレーション環境からの知識移転が容易になる。
オフラインの劣質な軌跡データを活用することで、視覚言語ナビゲーションエージェントの効率的なトレーニングが可能になる。
本研究では、大規模言語モデルとオープンボキャブララリー検出器を活用し、ナビゲーションの履歴情報を構造化したオムニグラフを構築することで、イテラティブ視覚言語ナビゲーションの性能を大幅に向上させる。