核心概念
為了解決跨域部署中多視角 3D 物體偵測模型的泛化問題,本文提出了統一域泛化和適應(UDGA)框架,該框架利用多視角重疊深度約束來提高幾何一致性,並採用標籤高效域適應方法,以最少的標註實現高效的域遷移。
文獻資訊
Chang, G., Lee, J., Kim, D., Kim, J., Lee, D., Ji, D., Jang, S., & Kim, S. (2024). Unified Domain Generalization and Adaptation for Multi-View 3D Object Detection. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在解決多視角 3D 物體偵測模型在跨域部署中遇到的泛化問題,特別是針對不同感測器配置和有限標註數據的情況。
方法
本研究提出了統一域泛化和適應(UDGA)框架,該框架包含兩個主要組成部分:
多視角重疊深度約束
利用相鄰視角之間的遮擋區域作為幾何線索,通過直接懲罰相鄰視角之間對應深度的差異,有效解決了透視差異問題,提高了模型的幾何一致性。
標籤高效域適應
受參數高效微調(PEFT)的啟發,該方法通過添加額外的瓶頸結構(即下投影和上投影層)來實現高效的域適應。
這些額外模組與預先訓練的操作塊並行構建,並通過跳躍連接進行融合,允許模型在保留源域知識的同時,以最少的標註數據適應目標域。
主要發現
與現有的域泛化方法相比,UDGA 在跨域場景中,特別是在 Lyft 到 nuScenes 和 nuScenes 到 Waymo 的任務中,顯著提高了模型的性能。
消融實驗證明了多視角重疊深度約束和標籤高效域適應方法的有效性,它們分別提高了模型的幾何一致性和域適應能力。
主要結論
UDGA 框架為開發實用的多視角 3D 物體偵測模型提供了一種有效的解決方案,該框架能夠有效解決跨域部署中遇到的挑戰,並顯著減少對標註數據的需求。
意義
本研究對於自動駕駛等安全關鍵應用具有重要意義,因為它提供了一種實用的方法,可以提高 3D 物體偵測模型在不同環境中的魯棒性和可靠性。
局限性和未來研究方向
模型的性能仍無法與使用 LiDAR 點雲的 3D 物體偵測模型相媲美。
多視角重疊深度約束依賴於圖像之間存在重疊區域。
在沒有任何目標標籤的情況下,實現完全域不可知的模型仍然具有挑戰性。
未來的研究方向包括探索更先進的域泛化和適應技術,以及開發更精確和魯棒的深度估計方法。
統計資料
在 Lyft 到 nuScenes 的任務中,與現有最佳方法相比,UDGA 的 NDS 提高了 4.7%,封閉差距提高了 12.6%。
在 nuScenes 到 Waymo 的任務中,與現有方法相比,UDGA 的封閉差距提高了 49.7%。
標籤高效域適應方法僅使用總參數的 20% 即可實現有效的域適應。