本研究は、視覚言語ナビゲーション(VLN)タスクにおいて、事前融合段階でのモダリティアラインメントの重要性に着目している。従来のVLNモデルでは、モダリティ間の隔たりが融合段階で十分に解消されていないことが課題となっていた。
そこで本研究では、デュアルレベルアラインメント(DELAN)フレームワークを提案する。このフレームワークでは、命令-履歴レベルと目印-観察レベルの2つのレベルでアラインメントを行う。
具体的には、まず命令文に目印単語を追加した二重レベルの命令文を構築する。次に、命令-履歴レベルでは命令文の全体的な意味と履歴の対応付けを行い、目印-観察レベルでは命令文の目印単語と観察結果の対応付けを行う。これらのアラインメントにはクロスモーダル対照学習を用いる。
提案手法は、既存のVLNモデルに統合可能であり、R2R、R4R、RxR、CVDNなどの各種VLNベンチマークにおいて、ベースラインモデルを上回る性能を示している。特に、長距離ナビゲーションタスクやマルチモーダルダイアログナビゲーションタスクでの有効性が確認された。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы