本研究は、視覚言語ナビゲーションタスクにおいて、事前融合段階でのモダリティアラインメントを実現するデュアルレベルアラインメントフレームワークを提案する。このフレームワークは、命令-履歴レベルと目印-観察レベルの2つのレベルでアラインメントを行い、クロスモーダル相互作用と行動決定を強化する。