核心概念
本研究は、BEV 3D物体検出のための領域適応問題を包括的に解決するため、多空間アライメントを行うティーチャー-スチューデントフレームワークを提案する。
摘要
本研究は、BEV 3D物体検出のための領域適応問題に取り組む。BEV 3D物体検出は、複数のコンポーネントから構成されており、各幾何学的空間(2D、3Dボクセル、BEV)での領域シフトの蓄積が課題となる。
提案手法は以下の2つのモデルから構成される:
- 深度認識ティーチャー(DAT)モデル
- 対象ドメインの深度情報を活用し、ボクセルおよびBEV特徴を信頼性の高い情報で構築する
- 対象ドメイン固有の知識を抽出し、学生モデルに転移する
- 幾何学的空間アライメント学生(GAS)モデル
- 2D画像、3Dボクセル、BEVの多空間特徴を共通の幾何学的埋め込み空間にプロジェクトし、2つのドメイン間の分布を近づける
これにより、多空間での領域シフトの蓄積問題を包括的に解決する。
提案手法は、シーン、天候、昼夜の3つの領域適応シナリオで評価され、SOTA性能を達成した。
統計資料
明るい環境から雨天環境への適応では、提案手法はベースラインに比べて9.7%のNDS向上を達成した。
昼間から夜間への適応では、提案手法はベースラインに比べて12.6%のNDS向上を達成した。
引述
"BEV 3D物体検出は、複数のコンポーネントから構成されており、各幾何学的空間(2D、3Dボクセル、BEV)での領域シフトの蓄積が課題となる。"
"提案手法は、多空間での領域シフトの蓄積問題を包括的に解決する。"