核心概念
提出一個基於六個魚眼相機的全方位深度估計系統,並開發了一種實時高精度的全方位深度估計算法,在複雜的真實世界場景中實現了高精度、高魯棒性和高泛化性能。
摘要
本文提出了一個名為HexaMODE的全方位深度估計系統原型,採用六個魚眼相機的配置,並開發了相應的RtHexa-OmniMVS深度估計算法。
首先,作者提出了一種結合球面掃描的方法,大幅減少了投影和插值操作,從而提高了在邊緣計算平台上的推理速度。此外,作者設計了一個基於2D卷積的成本聚合網絡,避免了3D卷積的高複雜性,實現了在邊緣設備上的實時全方位深度估計。
為了在複雜的真實世界場景中實現高精度、魯棒性和泛化性,作者提出了一種基於教師-學生的自我訓練策略。利用大規模的未標記真實世界數據生成深度偽標籤,並結合數據增強和模型增強技術,有效地訓練了輕量級的學生模型。
實驗結果表明,所提出的HexaMODE系統在各種複雜的室內和室外場景中都能實現高精度的全方位深度估計,並在NVIDIA Orin平台上達到15fps的實時性能,滿足機器人導航和低速自動駕駛的全方位3D感知需求。
統計資料
本系統在NVIDIA Orin平台上的推理時間為0.065秒/幀,達到15fps的實時性能。
相比於傳統的球面掃描方法,提出的結合球面掃描方法將計算量降低到原來的1/3。
與CREStereo等最先進的立體匹配算法相比,本文提出的學生模型RtHexa-OmniMVS在參數量和計算複雜度上都有顯著降低,推理時間也大幅縮短。
引述
"我們提出了一種結合球面掃描的方法,大幅減少了投影和插值操作,從而提高了在邊緣計算平台上的推理速度。"
"我們設計了一個基於2D卷積的成本聚合網絡,避免了3D卷積的高複雜性,實現了在邊緣設備上的實時全方位深度估計。"
"為了在複雜的真實世界場景中實現高精度、魯棒性和泛化性,我們提出了一種基於教師-學生的自我訓練策略。"