Core Concepts
エージェントのナビゲーション能力を向上させるために、時間的および空間的なオブジェクト関係を学習することが重要である。
Abstract
ビジョン・ランゲージナビゲーション(VLN)はエージェントが自然言語で記述された場所にナビゲートする難しいタスクである。
内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係は、エージェントのナビゲーション能力を向上させる。
グラフ畳み込みネットワーク(GCN)を使用して内部オブジェクト間の関係をモデル化する従来の研究が行われていたが、GCNは浅い傾向があり、そのモデリング能力が制限されていた。
外部データセットはナビゲーション環境との乖離があり、関係の不正確なモデリングをもたらす。
時間的オブジェクト関係(TOR)と空間的オブジェクト関係(SOR)モジュールを導入し、エージェントの理解力を高める。
Turning Back Penalty(TBP)損失関数を導入して、エージェントの反復訪問行動をペナルティし、航行距離を大幅に削減する。
Stats
外部知識は公開画像テキストデータセットから派生しており、事前学習済みConceptNetシステムまたは大規模言語モデルから取得されます。
Quotes
"Our primary contributions can be summarized as follows."
"To address the above problems, we present two fundamental modules: the Temporal Object Relations (TOR) module and the Spatial Object Relations (SOR) module."