本論文は、単眼カメラ3次元物体検出の課題に取り組むための新しいアプローチ「VFMM3D」を提案している。VFMM3Dは、ビジョンファウンデーションモデルであるSegment Anything Model (SAM)とDepth Anything Model (DAM)を統合することで、単眼カメラ画像から高品質な疑似LiDAR点群を生成する。
具体的には、まず DAMを使って深度マップを推定し、これを3次元空間に投影して疑似LiDAR点群を生成する。次に、SAMを使って前景領域のセグメンテーションを行い、前景の深度情報を強調した疑似LiDAR点群を生成する。最後に、この疑似LiDAR点群をスパース化し、LiDARベースの3次元物体検出器に入力することで、高精度な3次元物体検出を実現する。
VFMM3Dは、既存の単眼カメラ3次元物体検出手法と比較して、KITTI データセットの3次元および鳥瞰図検出精度で大幅な性能向上を示している。また、LiDARベースの検出器との柔軟な統合が可能であり、幅広い応用が期待できる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究