Core Concepts
本研究では、カメラとLiDARのデータを双方向に融合することで、オプティカルフローとシーンフローを効率的に推定する新しい手法を提案する。提案手法は、2Dと3Dの特徴を相互に補完し合うことで、従来手法を大幅に上回る性能を達成する。
Abstract
本論文では、カメラとLiDARのデータを双方向に融合することで、オプティカルフローとシーンフローを効率的に推定する新しい手法を提案している。
まず、2Dの画像特徴と3Dのポイント特徴を整列させるための学習可能な補間モジュール(Bi-CLFM)を開発した。このモジュールにより、密な2D特徴と疎な3D特徴を双方向に融合することができる。
次に、提案手法は2つのアーキテクチャ(CamLiPWC、CamLiRAFT)に実装されている。CamLiPWCはピラミッド型の粗細統合アーキテクチャに基づき、CamLiRAFTは反復的な全ペア場変換アーキテクチャに基づいている。これらの手法は、2Dと3Dの特徴を複数の段階で双方向に融合することで、相互補完性を最大限に活用している。
実験の結果、提案手法はFlyingThings3DとKITTIのベンチマークで最先端の性能を達成し、従来手法に比べて大幅な精度向上を示した。さらに、Sintelデータセットでの評価から、提案手法は非剛体運動にも強い一般化性能を持つことが確認された。
Stats
2Dオプティカルフローの平均エンドポイントエラーは1.76ピクセルと、従来手法より47.9%改善された。
3Dシーンフローの平均エンドポイントエラーは0.050mと、従来手法より47.9%改善された。
KITTIベンチマークでは、提案手法CamLiRAFTが4.26%のエラーを達成し、最高記録を更新した。
Quotes
"我々は、2Dと3Dの特徴を相互に補完し合う多段階の双方向融合パイプラインを提案する。"
"提案手法は、FlyingThings3DとKITTIのベンチマークで最先端の性能を達成し、従来手法に比べて大幅な精度向上を示した。"
"提案手法は非剛体運動にも強い一般化性能を持つことが確認された。"