Core Concepts
エンドツーエンドアプローチと従来の方法を比較して、現実世界での動き予測モデルの性能差を明らかにする。
Abstract
自律車両における重要な役割を果たす動き予測モデルについて、従来の方法とエンドツーエンドアプローチを比較しました。研究では、従来の方法が完全なマップや検出トラッキング情報を前提として訓練されている一方、エンドツーエンドアプローチは知覚情報と動き予測アーキテクチャを統合的に訓練することで問題解決を図っています。しかし、実際の世界への展開時にはパフォーマンスギャップが生じることが示されました。特に、知覚モジュールから提供される不完全な入力が原因であり、これは単純な微調整だけでは解消されないことが明らかになりました。さらに、異なる種類の地図情報や検出トラッキングエラーが動き予測性能に与える影響も詳細に分析されました。
Stats
現実世界への移行時の性能差:0.343 → 0.112(AgentFormer)、0.757 → 0.317(LaPred)
リダー対カメラ:ViP3D Det&Track(MR↓)、UniAD Det&Track(minFDE↓)
マッピング手法:SimpleBeV(mAPf↑)、LaRa(mAPf↑)、MapTR(mAPf↑)
Quotes
"The emerging ‘end-to-end forecasting’ paradigm is so far not better than the conventional one, even in a real-world setting without finetuning."
"There is a large and systematic performance gap going from curated annotations to perception predictions, which is not reduced by simple techniques, requiring more effort than just joint training."
"We show that the perception and forecasting quality depends on the agent-ego distance."