Core Concepts
LiDARシーンの空間的および時間的な変換に対して等変な特徴表現を学習することで、3D物体検出の性能を向上させることができる。
Abstract
本論文では、LiDARシーンの3D物体検出のための自己教師学習フレームワークE-SSL3Dを提案している。このフレームワークでは、空間的な変換(平行移動、回転、スケーリング、反転)と時間的な変換(シーンフロー)に対して等変な特徴表現を学習する。
空間的な等変性は、点レベルの対比学習と変換予測の2つのアプローチで実現する。時間的な等変性は、2つのネットワーク(オンラインネットワークとターゲットネットワーク)を用いたBYOLフレームワークに基づいて実現する。ターゲットネットワークの特徴マップをシーンフローを用いて変換し、オンラインネットワークの出力と一致させるように学習する。
実験では、KITTI-360とSemanticKITTIデータセットを用いて事前学習を行い、KITTI物体検出データセットでファインチューニングを行った。SECOND[37]とVoxelRCNN[7]の2つの物体検出ネットワークを用いて評価し、既存の自己教師学習手法と比較して優れた性能を示した。特に、少ないラベル付きデータ(20%)でも、ラベル付き全データ(100%)と同等の性能が得られることを示した。
Stats
LiDARシーンの空間的変換(平行移動、回転、スケーリング、反転)は物体検出の出力にも影響を与える。
LiDARシーンの時間的変化(物体の動き)は3Dシーンフローで表現できる。
提案手法E-SSL3Dは、空間的および時間的な等変性を同時に学習することで、物体検出の性能を向上させることができる。
Quotes
"LiDARシーンの空間的および時間的な変換に対して等変な特徴表現を学習することで、3D物体検出の性能を向上させることができる。"
"提案手法E-SSL3Dは、空間的および時間的な等変性を同時に学習することで、物体検出の性能を向上させることができる。"