本文提出了一個名為HexaMODE的全方位深度估計系統原型,採用六個魚眼相機的配置,並開發了相應的RtHexa-OmniMVS深度估計算法。
首先,作者提出了一種結合球面掃描的方法,大幅減少了投影和插值操作,從而提高了在邊緣計算平台上的推理速度。此外,作者設計了一個基於2D卷積的成本聚合網絡,避免了3D卷積的高複雜性,實現了在邊緣設備上的實時全方位深度估計。
為了在複雜的真實世界場景中實現高精度、魯棒性和泛化性,作者提出了一種基於教師-學生的自我訓練策略。利用大規模的未標記真實世界數據生成深度偽標籤,並結合數據增強和模型增強技術,有效地訓練了輕量級的學生模型。
實驗結果表明,所提出的HexaMODE系統在各種複雜的室內和室外場景中都能實現高精度的全方位深度估計,並在NVIDIA Orin平台上達到15fps的實時性能,滿足機器人導航和低速自動駕駛的全方位3D感知需求。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Ming Li, Xio... : arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07843.pdfDaha Derin Sorular