Core Concepts
本研究は、自動運転シナリオにおける未知のものとスタッフオブジェクトの同時分割を可能にする初めての手法を提案する。提案手法は、学習可能なLiDARエンコーダと凍結されたCLIPビジョンエンコーダを融合し、オブジェクトレベルの蒸留損失と体素レベルの蒸留損失を導入することで、未知クラスの物体とスタッフの正確な分割を実現する。
Abstract
本研究は、自動運転における3Dパノプティック分割の新しい課題であるオープンボキャブラリー分割に取り組んでいる。従来の3Dパノプティック分割手法は閉じた環境でのみ良好な性能を発揮するが、未知のクラスに対応できないという課題がある。
提案手法は以下の特徴を持つ:
LiDARエンコーダとCLIPビジョンエンコーダを融合することで、カメラ画像のない領域でも正確な特徴を学習できる。
オブジェクトレベルの蒸留損失により、CLIPの特徴を直接学習し、未知クラスの物体を正確に分割できる。
体素レベルの蒸留損失により、未知のスタッフクラスの分割精度を大幅に向上させることができる。
実験の結果、提案手法はnuScenesとSemanticKITTIデータセットにおいて、強力なベースラインモデルを大幅に上回る性能を示した。特に、未知のスタッフクラスの分割精度が大幅に向上した。
Stats
未知のバス、ゴミ箱、植生クラスに対して高精度な分割結果を得られる。
未知のスタッフクラスに対して、ベースラインモデルの0.5 PQSt
Nに対し、提案手法は35.2 PQSt
Nを達成した。
提案手法は、ベースラインモデルに比べて、全体のPQを7.2ポイント、RQを7.3ポイント、SQを2.8ポイント向上させた。
Quotes
"本研究は、自動運転シナリオにおける未知のものとスタッフオブジェクトの同時分割を可能にする初めての手法を提案する。"
"提案手法は、LiDARエンコーダとCLIPビジョンエンコーダを融合し、オブジェクトレベルの蒸留損失と体素レベルの蒸留損失を導入することで、未知クラスの物体とスタッフの正確な分割を実現する。"
"実験の結果、提案手法はnuScenesとSemanticKITTIデータセットにおいて、強力なベースラインモデルを大幅に上回る性能を示した。特に、未知のスタッフクラスの分割精度が大幅に向上した。"