Core Concepts
Copilot4Dは、センサー観測をトークン化し、離散拡散モデルを用いて未来を予測することで、自動運転のための強力な無監督学習の世界モデルを実現する。
Abstract
本論文は、自動運転のための無監督学習による世界モデルCopilot4Dを提案している。
まず、センサー観測(ポイントクラウド)をVQVAEでトークン化する。これにより、複雑で構造化されていない観測空間を離散的な表現に変換できる。
次に、トークン化された観測に対して、離散拡散モデルを適用して未来を予測する。従来のマスクGITモデルをベースに、いくつかの改良を加えることで、より効率的な並列デコーディングと再サンプリングが可能となる。
提案手法Copilot4Dは、NuScenes、KITTI Odometry、Argoverse2の各データセットにおいて、従来手法と比較して1秒予測で65-75%、3秒予測で50%以上のChamfer距離の改善を達成している。これは、トークン化と離散拡散の組み合わせが、実世界データに対する強力な無監督学習の世界モデルを実現できることを示している。
Stats
1秒予測のChamfer距離がNuScenes、KITTI、Argoverse2で従来比65-75%減少
3秒予測のChamfer距離がNuScenes、KITTI、Argoverse2で従来比50%以上減少