核心概念
単眼3次元物体検出では、深度推定の精度が検出精度の主な制限要因となっている。本研究では、深度推定の補完性を高めることで、深度推定精度と物体検出精度の向上を実現する。
要約
本研究は、単眼3次元物体検出における深度推定の課題に取り組んでいる。従来の手法では、局所的な深度情報を組み合わせて深度を推定しているが、これらの深度推定値は同符号の誤差を持つことが多く、誤差の相殺が十分に行えないという問題がある。
本研究では、この問題を解決するため、2つの新しい設計を提案している。
- 画像全体の大域的な深度情報を活用する新しい深度推定ブランチを追加する。これにより、局所的な深度情報と大域的な深度情報の組み合わせによって、深度推定値の補完性が高まる。
- 複数の深度推定ブランチ間の幾何学的関係を活用し、深度推定値の誤差符号が互いに逆になるように設計する。これにより、深度推定値の補完性がさらに高まる。
提案手法をKITTIベンチマークで評価した結果、従来手法と比べて高い検出精度を達成できることが示された。また、提案手法の補完的な深度推定ブランチは、既存の単眼3次元物体検出器にも適用可能な軽量なモジュールとなることが確認された。
統計
単眼3次元物体検出では、深度推定の精度が主な制限要因となっている。
従来の手法では、深度推定値の95%が同符号の誤差を持つ。
提案手法では、深度推定値の誤差符号の反対の割合が最大で59.08%に達する。