本文提出了一種名為MT F-CVT的創新停車區域感知方法。該方法利用四個魚眼環視攝像頭,將特徵投射到一個鳥瞰視角(BEV)特徵網格上,並應用多頭交叉視角注意力機制來增強整體場景理解。
在BEV特徵網格的基礎上,MT F-CVT同時進行分割和Yolo-Polygon檢測的多任務學習。分割任務可以檢測空置停車位,Yolo-Polygon任務則可以檢測停放的車輛及其方向。
得益於使用真實3D註釋,即使是小型網絡配置,MT F-CVT也能以僅20厘米的誤差定位物體,並達到0.86的F1分數,優於現有基於同射變換的方法。小型模型在Nvidia Jetson Orin嵌入式板上可以達到16 fps的執行速度,適用於低速停車應用。
該方法還展示了良好的泛化能力,可以成功應用於未見過的車輛和攝像頭配置。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Antonyo Musa... في arxiv.org 10-01-2024
https://arxiv.org/pdf/2408.12575.pdfاستفسارات أعمق