核心概念
我們提出了一個基礎模型,能夠在任意圖像上進行零樣本度量單眼深度估計。我們的模型Depth Pro能夠合成高分辨率的深度圖,擁有無與倫比的銳利度和高頻細節。這些預測是度量的,具有絕對尺度,無需依賴相機內參等元數據。而且模型速度很快,在標準GPU上只需0.3秒就能生成225萬像素的深度圖。
摘要
本文提出了一個名為Depth Pro的基礎模型,能夠在任意圖像上進行零樣本度量單眼深度估計。Depth Pro具有以下特點:
- 生成高分辨率(225萬像素)的深度圖,擁有無與倫比的銳利度和高頻細節。
- 預測的深度是度量的,具有絕對尺度,無需依賴相機內參等元數據。
- 模型速度很快,在標準GPU上只需0.3秒就能完成深度估計。
這些特點是通過以下技術貢獻實現的:
- 設計了一個高效的多尺度視覺變換器架構,能夠捕捉全局圖像上下文,同時也能夠在高分辨率下保持細節。
- 提出了一套新的評估指標,利用高精度的抠圖數據集來量化深度圖邊界的精確度。
- 設計了一套損失函數和訓練課程,在使用真實世界數據集(邊界不精確)和合成數據集(精確像素級標註)進行訓練時,能夠生成銳利的深度估計。
- 提出了一種從單張圖像零樣本估計焦距的方法,大幅超越了現有最佳方法。
實驗結果表明,Depth Pro在多個維度上都優於現有的度量單眼深度估計系統,包括深度精度、邊界銳利度和推理速度。
統計資料
在Booster數據集上,Depth Pro的δ1指標為46.6%。
在ETH3D數據集上,Depth Pro的δ1指標為41.5%。
在Middlebury數據集上,Depth Pro的δ1指標為60.5%。
在nuScenes數據集上,Depth Pro的δ1指標為49.1%。
在Sintel數據集上,Depth Pro的邊界F1指標為0.409。
在Spring數據集上,Depth Pro的邊界F1指標為0.079。