核心概念
本研究では、大規模言語モデルとオープンボキャブララリー検出器を活用し、ナビゲーションの履歴情報を構造化したオムニグラフを構築することで、イテラティブ視覚言語ナビゲーションの性能を大幅に向上させる。
摘要
本研究は、イテラティブ視覚言語ナビゲーション(IVLN)の課題に取り組んでいる。IVLN では、エージェントが複数のエピソードにわたってシーンを探索し、その履歴情報を活用することが重要となる。しかし、この履歴情報は非構造化かつ疎な監督信号しか得られないため、有効活用が困難であった。
本研究では以下の2つの提案により、この課題に取り組んでいる:
- 大規模言語モデルとオープンボキャブラリー検出器の活用
- 言語モデルを用いて命令文からキーワードを抽出し、オープンボキャブラリー検出器を用いて視覚情報とキーワードの対応付けを行う。これにより、非構造化な履歴情報から信頼できる教師信号を得ることができる。
- オープンボキャブラリー検出器を用いることで、未知のカテゴリにも柔軟に対応できる。
- 構造化表現「オムニグラフ」の導入
- 抽出したキーワードと視覚情報を統合した構造化表現であるオムニグラフを構築する。
- オムニグラフは離散・連続環境の両方に適用可能な一般的な表現である。
- オムニグラフの融合メカニズムにより、エージェントに最適な情報を提供することができる。
実験の結果、提案手法は既存手法と比べて大幅な性能向上を達成している。特に、オープンボキャブラリーの活用と構造化表現の導入が大きな効果を発揮している。
統計資料
本研究では、大規模言語モデルを用いてナビゲーション命令文からキーワードを抽出している。
オープンボキャブラリー検出器を用いて、視覚情報とキーワードの対応付けを行っている。
構造化表現であるオムニグラフを構築し、エージェントの行動予測に活用している。
引述
本研究では、大規模言語モデルとオープンボキャブラリー検出器を活用し、ナビゲーションの履歴情報を構造化したオムニグラフを構築することで、イテラティブ視覚言語ナビゲーションの性能を大幅に向上させている。
オープンボキャブラリー検出器を用いることで、未知のカテゴリにも柔軟に対応できる。
オムニグラフは離散・連続環境の両方に適用可能な一般的な表現である。