Core Concepts
本研究は、視覚言語ナビゲーションタスクにおいて、事前融合段階でのモダリティアラインメントを実現するデュアルレベルアラインメントフレームワークを提案する。このフレームワークは、命令-履歴レベルと目印-観察レベルの2つのレベルでアラインメントを行い、クロスモーダル相互作用と行動決定を強化する。
Abstract
本研究は、視覚言語ナビゲーション(VLN)タスクにおいて、事前融合段階でのモダリティアラインメントの重要性に着目している。従来のVLNモデルでは、モダリティ間の隔たりが融合段階で十分に解消されていないことが課題となっていた。
そこで本研究では、デュアルレベルアラインメント(DELAN)フレームワークを提案する。このフレームワークでは、命令-履歴レベルと目印-観察レベルの2つのレベルでアラインメントを行う。
具体的には、まず命令文に目印単語を追加した二重レベルの命令文を構築する。次に、命令-履歴レベルでは命令文の全体的な意味と履歴の対応付けを行い、目印-観察レベルでは命令文の目印単語と観察結果の対応付けを行う。これらのアラインメントにはクロスモーダル対照学習を用いる。
提案手法は、既存のVLNモデルに統合可能であり、R2R、R4R、RxR、CVDNなどの各種VLNベンチマークにおいて、ベースラインモデルを上回る性能を示している。特に、長距離ナビゲーションタスクやマルチモーダルダイアログナビゲーションタスクでの有効性が確認された。
Stats
命令文と履歴の対応付けは、命令文の全体的な意味と履歴の関係性を強化する。
目印単語と観察結果の対応付けは、命令文の目印情報と観察結果の関係性を強化する。
これらのアラインメントにより、クロスモーダル相互作用と行動決定が改善される。
Quotes
"本研究は、視覚言語ナビゲーション(VLN)タスクにおいて、事前融合段階でのモダリティアラインメントの重要性に着目している。"
"提案手法は、既存のVLNモデルに統合可能であり、R2R、R4R、RxR、CVDNなどの各種VLNベンチマークにおいて、ベースラインモデルを上回る性能を示している。"