핵심 개념
本文提出了一種名為MT F-CVT的創新停車區域感知方法,能夠準確識別空置停車位和已停放的車輛,並準確判斷它們的方向,覆蓋範圍達25米x25米。MT F-CVT將四個魚眼環視攝像頭投射到一個鳥瞰視角(BEV)特徵網格上,並應用多頭交叉視角注意力機制來增強整體場景理解。然後進行分割和Yolo-Polygon檢測的多任務學習。得益於使用真實3D註釋,即使是小型網絡配置,也能以僅20厘米的誤差定位物體,並達到0.86的F1分數,優於現有方法。
초록
本文提出了一種名為MT F-CVT的創新停車區域感知方法。該方法利用四個魚眼環視攝像頭,將特徵投射到一個鳥瞰視角(BEV)特徵網格上,並應用多頭交叉視角注意力機制來增強整體場景理解。
在BEV特徵網格的基礎上,MT F-CVT同時進行分割和Yolo-Polygon檢測的多任務學習。分割任務可以檢測空置停車位,Yolo-Polygon任務則可以檢測停放的車輛及其方向。
得益於使用真實3D註釋,即使是小型網絡配置,MT F-CVT也能以僅20厘米的誤差定位物體,並達到0.86的F1分數,優於現有基於同射變換的方法。小型模型在Nvidia Jetson Orin嵌入式板上可以達到16 fps的執行速度,適用於低速停車應用。
該方法還展示了良好的泛化能力,可以成功應用於未見過的車輛和攝像頭配置。
통계
車輛和停車位的平均定位誤差為20厘米。
小型模型在Nvidia Jetson Orin嵌入式板上可以達到16 fps的執行速度。
大型模型在Nvidia A100 GPU上的F1分數為0.89。
인용구
"MT F-CVT能夠準確識別空置停車位和已停放的車輛,並準確判斷它們的方向,覆蓋範圍達25米x25米。"
"得益於使用真實3D註釋,即使是小型網絡配置,MT F-CVT也能以僅20厘米的誤差定位物體,並達到0.86的F1分數,優於現有基於同射變換的方法。"
"小型模型在Nvidia Jetson Orin嵌入式板上可以達到16 fps的執行速度,適用於低速停車應用。"