Core Concepts
本研究は、カメラ画像から3D意味的占有を推定し、それを用いて精度の高い自己位置推定と詳細な地図構築を実現するOCC-VOフレームワークを提案する。
Abstract
本研究は、自動運転における視覚オドメトリの課題に取り組んでいる。従来の視覚オドメトリは、カメラ画像の深度情報の欠如により、自己位置推定と地標位置の同時推定が必要であり、複雑な最適化問題を解く必要があった。
本研究では、深層学習を用いて2Dカメラ画像から3D意味的占有を推定し、それを点群として扱うことで、従来の最適化問題を点群登録問題に変換している。これにより、自己位置推定と地図構築の精度が向上する。
具体的には以下の工夫を行っている:
セマンティックラベルフィルタ: 意味的ラベルの不一致を除去し、平面上での位置推定の安定性を向上
動的物体フィルタ: 動的物体の影響を排除し、位置推定精度を向上
ボクセルPフィルタ: 3D意味的占有の不整合を補正し、地図の一貫性を維持
これらの手法により、従来手法と比較して、軌道精度が29.6%向上し、成功率が20.6%向上した。また、詳細で正確な3Dセマンティック地図の構築が可能となった。
Stats
提案手法OCC-VOは、ORB-SLAM3と比較して、軌道精度のRMSEを29.6%改善した。
OCC-VOは、ORB-SLAM3と比較して、成功率を20.6%向上させた。