OccRWKV是一個創新的3D語義佔用預測網絡,旨在在精度和效率之間實現平衡。它由三個主要組件組成:語義分割分支、佔用預測分支和BEV特徵融合分支。
語義分割分支包含一個體素化層和三個Sem-RWKV編碼器塊,用於從點雲中提取語義特徵。Sem-RWKV塊利用VRWKV模塊捕捉長距離依賴關係,增強了語義特徵的表示能力。
佔用預測分支由三個Geo-RWKV塊組成,專注於從幾何信息中學習佔用預測。Geo-RWKV塊同樣利用VRWKV模塊來處理和提煉幾何信息。
最後,BEV特徵融合分支採用U型網絡結構,將語義和幾何特徵融合在BEV空間中,生成最終的3D語義佔用預測。
通過將特徵投射到BEV空間,OccRWKV大幅降低了特徵融合的計算開銷,實現了實時推理,同時保持了出色的性能。
在SemanticKITTI基準測試中,OccRWKV取得了25.1%的mIoU,超越了現有最佳方法,同時推理速度達到22.2 FPS,比最佳基準線快20倍。這使得OccRWKV非常適合部署在機器人上,以提高自主導航的效率。
翻譯成其他語言
從原文內容
arxiv.org
深入探究