toplogo
登入
洞見 - Computer Vision - # 三維重建、語義分割、神經輻射場

大型空間模型:從非特定姿態圖像到語義三維的端到端重建


核心概念
本文提出了一種名為大型空間模型(LSM)的新型端到端框架,可以直接從非特定姿態的圖像中重建具有語義資訊的三維場景。
摘要

論文概述

本論文介紹了一種名為大型空間模型(LSM)的新方法,用於從非特定姿態的圖像中進行密集的三維語義重建。LSM 採用單一基於 Transformer 的模型,透過點雲語義輻射場來學習三維場景的屬性。與先前依賴於已知相機參數的極線 Transformer 或需要大量場景擬合的方法不同,LSM 採用由粗到精的策略,在單次前向傳遞中使用像素對齊點圖預測密集的三維幾何形狀,並逐步將這些點細化為各向異性高斯分佈。

主要貢獻

  • 提出一種統一的三維表示法和端到端框架,可直接從非特定姿態的圖像中解決密集三維重建、基於語言的三維分割和新視圖合成等關鍵三維視覺子問題。
  • 該方法利用具有跨視圖注意力機制的 Transformer 架構進行多視圖幾何預測,並結合分層跨模態注意力機制來傳播富含幾何資訊的特徵。此外,還整合了預先訓練的語義分割模型,以增強三維場景理解。透過在點級別聚合局部上下文,實現了細粒度的特徵整合,從而能夠預測各向異性三維高斯分佈,並使用 RGB、深度和語義資訊進行高效的分割。
  • 該模型可以在單個 GPU 上實時重建和渲染,同時執行多項任務。實驗表明,這種統一的方法可以有效地擴展到不同的三維視覺任務,並且在不需要額外 SfM 步驟的情況下,其性能優於許多最先進的基準模型。

模型架構

LSM 的架構主要分為以下幾個部分:

  1. 密集幾何預測: 使用 Siamese ViT 編碼器處理立體圖像,並透過跨視圖注意力機制聚合多視圖資訊。解碼器則使用密集預測 Transformer 頭部(DPT)估計歸一化坐標系中的像素級點圖和置信度值。
  2. 逐點特徵聚合: 採用基於 Transformer 的逐點聚合方法,利用分層表示來實現更精細的逐點預測。透過多尺度聚合,將編碼的特徵與來自預先訓練的二維視覺模型的豐富語義資訊進行合併。
  3. 學習分層語義: 透過將各向異性三維高斯分佈增強為可學習的語義特徵嵌入,並使用特徵渲染函數將三維結構柵格化到二維圖像平面,從而實現語義三維表示。
  4. 訓練目標: 使用光度損失、語義損失和置信度加權深度損失來監督模型的訓練,以實現端到端的優化。

實驗結果

實驗結果表明,LSM 在新視圖合成、多視圖深度預測和基於語言的語義分割等任務上均取得了與現有方法相當或更優的性能。同時,LSM 的效率非常高,能夠在單個 GPU 上實現實時的端到端三維建模。

總結

LSM 是一種新穎且高效的框架,用於從非特定姿態的圖像中進行密集的三維語義重建。該方法透過整合多視圖幾何預測、語義特徵融合和逐點特徵聚合等技術,實現了高質量的三維場景重建,並在多項三維視覺任務中展現出優異的性能。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
LSM 在 ScanNet 數據集上的語義分割任務中,平均 Intersection over Union (mIoU) 達到 0.5078,平均像素準確率 (mAcc) 達到 0.7686。 在新視圖合成任務中,LSM 的峰值信噪比 (PSNR) 為 24.3996,結構相似性指標 (SSIM) 為 0.8072。 LSM 的重建速度非常快,在單個 GPU 上只需 0.108 秒即可完成。
引述
"To address the challenges outlined above, we propose for the first time a novel unified framework for these key 3D vision subproblems: dense 3D reconstruction, open-vocabulary semantic segmentation, and novel view synthesis from unposed and uncalibrated images." "Our framework, dubbed Large Spatial Model (LSM), begins with a general Transformer architecture incorporating cross-view attention [19], which constructs pixel-aligned point maps at a normalized scale, enabling generalization across various datasets." "Our method leverages a Transformer architecture with cross-view attention for multi-view geometry prediction, combined with hierarchical cross-modal attention to propagate geometry-rich features."

從以下內容提煉的關鍵洞見

by Zhiwen Fan, ... arxiv.org 10-25-2024

https://arxiv.org/pdf/2410.18956.pdf
Large Spatial Model: End-to-end Unposed Images to Semantic 3D

深入探究

LSM 如何處理遮擋問題?在處理具有大量遮擋的場景時,其性能如何?

LSM 透過使用多視角資訊和幾何推理來處理遮擋問題。具體來說,LSM 的運作方式如下: 多視角幾何預測: LSM 使用一個帶有跨視角注意力機制的 Transformer 架構,從多個輸入視角中預測像素對齊的點雲。這使得模型可以從不同的視角觀察場景,並推斷出被遮擋區域的幾何形狀。 點態特徵聚合: LSM 採用點態 Transformer 在局部窗口內進行特徵聚合,並透過多尺度融合策略整合不同層級的資訊。這使得模型可以捕捉到精細的局部幾何細節,並改善遮擋區域的重建品質。 分層語義學習: LSM 將預先訓練好的二維語義分割模型的特徵整合到三維語義特徵場中。透過最小化渲染特徵圖和預測特徵圖之間的差異,LSM 可以學習到場景中物件的語義資訊,即使這些物件在某些視角中被遮擋。 然而,LSM 在處理具有大量遮擋的場景時仍可能面臨挑戰。由於模型依賴於多視角資訊來推斷遮擋區域,因此當場景中存在大量遮擋,導致某些區域無法從任何視角觀察到時,模型的性能可能會下降。 總之,LSM 透過結合多視角幾何預測、點態特徵聚合和分層語義學習來有效地處理遮擋問題。然而,在處理具有極端遮擋的場景時,模型的性能可能會受到影響。

如果沒有預先訓練的二維語義分割模型,LSM 的性能會受到多大影響?是否有其他方法可以替代預先訓練的模型?

如果沒有預先訓練的二維語義分割模型,LSM 的語義分割性能將會受到顯著影響。這是因為預先訓練的模型提供了豐富的語義資訊,有助於 LSM 學習三維語義特徵場。 以下是一些替代預先訓練模型的方法: 自監督學習: 可以使用自監督學習方法,例如對比學習或自編碼器,從未標記的資料中學習語義特徵表示。 弱監督學習: 可以使用弱監督學習方法,例如利用圖像級標籤或文字描述,來訓練語義分割模型。 聯合訓練: 可以將 LSM 與二維語義分割模型聯合訓練,讓兩個模型互相學習並提升性能。 然而,這些替代方法可能需要更多的訓練資料、更長的訓練時間,並且可能無法達到與使用預先訓練模型相同的性能。

LSM 的應用場景有哪些?除了文中提到的機器人學習、AR/VR 和數字孿生之外,LSM 還可以應用於哪些領域?

除了文中提到的應用場景,LSM 還可以應用於以下領域: 自動駕駛: LSM 可以用於建立自動駕駛汽車的三維環境模型,包括道路、建築物、行人和其他車輛的語義資訊,從而提升自動駕駛系統的安全性。 智慧城市: LSM 可以用於建立城市的三維模型,包括建築物、道路、植被和其他城市基礎設施的語義資訊,有助於城市規劃、環境監測和災害管理。 虛擬實境和擴增實境 (VR/AR): LSM 可以用於建立更逼真、更具互動性的 VR/AR 體驗,例如虛擬導覽、遊戲和虛擬購物。 醫療影像分析: LSM 可以用於從醫學影像(例如 CT 掃描和 MRI)中重建三維器官模型,並進行語義分割,協助醫生進行診斷和治療。 逆向工程: LSM 可以用於從物體的多個圖像中重建其三維模型,並進行語義分割,有助於產品設計和分析。 總之,LSM 作為一個高效、實时的三維場景重建和理解框架,具有廣泛的應用前景。隨著技術的進步和應用需求的增加,LSM 將在更多領域發揮重要作用。
0
star