核心概念
本文提出了一種名為大型空間模型(LSM)的新型端到端框架,可以直接從非特定姿態的圖像中重建具有語義資訊的三維場景。
摘要
論文概述
本論文介紹了一種名為大型空間模型(LSM)的新方法,用於從非特定姿態的圖像中進行密集的三維語義重建。LSM 採用單一基於 Transformer 的模型,透過點雲語義輻射場來學習三維場景的屬性。與先前依賴於已知相機參數的極線 Transformer 或需要大量場景擬合的方法不同,LSM 採用由粗到精的策略,在單次前向傳遞中使用像素對齊點圖預測密集的三維幾何形狀,並逐步將這些點細化為各向異性高斯分佈。
主要貢獻
- 提出一種統一的三維表示法和端到端框架,可直接從非特定姿態的圖像中解決密集三維重建、基於語言的三維分割和新視圖合成等關鍵三維視覺子問題。
- 該方法利用具有跨視圖注意力機制的 Transformer 架構進行多視圖幾何預測,並結合分層跨模態注意力機制來傳播富含幾何資訊的特徵。此外,還整合了預先訓練的語義分割模型,以增強三維場景理解。透過在點級別聚合局部上下文,實現了細粒度的特徵整合,從而能夠預測各向異性三維高斯分佈,並使用 RGB、深度和語義資訊進行高效的分割。
- 該模型可以在單個 GPU 上實時重建和渲染,同時執行多項任務。實驗表明,這種統一的方法可以有效地擴展到不同的三維視覺任務,並且在不需要額外 SfM 步驟的情況下,其性能優於許多最先進的基準模型。
模型架構
LSM 的架構主要分為以下幾個部分:
- 密集幾何預測: 使用 Siamese ViT 編碼器處理立體圖像,並透過跨視圖注意力機制聚合多視圖資訊。解碼器則使用密集預測 Transformer 頭部(DPT)估計歸一化坐標系中的像素級點圖和置信度值。
- 逐點特徵聚合: 採用基於 Transformer 的逐點聚合方法,利用分層表示來實現更精細的逐點預測。透過多尺度聚合,將編碼的特徵與來自預先訓練的二維視覺模型的豐富語義資訊進行合併。
- 學習分層語義: 透過將各向異性三維高斯分佈增強為可學習的語義特徵嵌入,並使用特徵渲染函數將三維結構柵格化到二維圖像平面,從而實現語義三維表示。
- 訓練目標: 使用光度損失、語義損失和置信度加權深度損失來監督模型的訓練,以實現端到端的優化。
實驗結果
實驗結果表明,LSM 在新視圖合成、多視圖深度預測和基於語言的語義分割等任務上均取得了與現有方法相當或更優的性能。同時,LSM 的效率非常高,能夠在單個 GPU 上實現實時的端到端三維建模。
總結
LSM 是一種新穎且高效的框架,用於從非特定姿態的圖像中進行密集的三維語義重建。該方法透過整合多視圖幾何預測、語義特徵融合和逐點特徵聚合等技術,實現了高質量的三維場景重建,並在多項三維視覺任務中展現出優異的性能。
統計資料
LSM 在 ScanNet 數據集上的語義分割任務中,平均 Intersection over Union (mIoU) 達到 0.5078,平均像素準確率 (mAcc) 達到 0.7686。
在新視圖合成任務中,LSM 的峰值信噪比 (PSNR) 為 24.3996,結構相似性指標 (SSIM) 為 0.8072。
LSM 的重建速度非常快,在單個 GPU 上只需 0.108 秒即可完成。
引述
"To address the challenges outlined above, we propose for the first time a novel unified framework for these key 3D vision subproblems: dense 3D reconstruction, open-vocabulary semantic segmentation, and novel view synthesis from unposed and uncalibrated images."
"Our framework, dubbed Large Spatial Model (LSM), begins with a general Transformer architecture incorporating cross-view attention [19], which constructs pixel-aligned point maps at a normalized scale, enabling generalization across various datasets."
"Our method leverages a Transformer architecture with cross-view attention for multi-view geometry prediction, combined with hierarchical cross-modal attention to propagate geometry-rich features."