Core Concepts
提案された新しいモデルは、任意の第一人称視点で利用可能なモダリティを対応するBEVマップにゼロショット投影する能力を持っています。
Abstract
BEVマップはロボティクスに広く使用される重要な幾何学的構造化表現です。
既存のアルゴリズムは、ジオメトリック投影に深度情報が必要であるか、完全に教師ありで訓練されているため、出力モダリティが制限されています。
新しいモデルは、任意の第一人称視点で利用可能なモダリティを対応するBEVマップにゼロショット投影する能力を提案しています。
メソッドは汎用的であり、3つの異なるモダリティ(セマンティックセグメンテーション、動きのベクトル、および最初の人物で検出されたオブジェクト境界ボックス)をBEVに投影する実験を紹介しています。
データ生成手順と組み合わせて、新しい学習アプローチがどのように任意のFPVイメージからBEVマップへのゼロショット投影を達成するかが示されています。
Stats
既存のアルゴリズムは深度情報が必要であるか完全に教師ありで訓練されているため、出力モダリティが制限されています。
新しい学習アプローチは任意の第一人称視点で利用可能なモダリティを対応するBEVマップにゼロショット投影します。