核心概念
セマンティックマップを入力として使用することで、効率的に経路案内指示を生成できる可能性がある。
要約
本研究では、経路案内指示の生成をイメージキャプショニングタスクとして定式化し、セマンティックマップを主要な入力として使用する新しいアプローチを提案している。従来のアプローチでは、パノラマ画像のシーケンスを入力として使用していたが、セマンティックマップは視覚的な詳細を抽象化し、複数のパノラマ画像の情報を単一の上面図表現に融合するため、入力の処理が簡単になる。
研究では、セマンティックマップを使用した経路案内指示生成のベンチマークデータセットを作成し、初期モデルを提案している。人間評価の結果、セマンティックマップのみを入力として使用した場合は性能が低いが、領域名、アクション、パノラマ画像などの追加情報を組み合わせることで、性能が向上することが示された。
さらに、エラー分析の結果、領域名やアクションの記述に関する誤りが多いことが明らかになった。今後の課題として、セマンティックマップの表現力の向上や、パノラマ画像などの追加情報の効果的な活用が挙げられる。
統計
経路上の各ポイントにおいて、平均5.95個のナビゲーションポイントと、平均3.26個の領域、平均22.64個のオブジェクトが存在する。