核心概念
FAST-Splat 是一種新穎的語義高斯樣條函數方法,它通過將封閉集語義分割擴展到開放詞彙設置,實現了快速且無歧義的 3D 語義對象定位,同時顯著減少了訓練和渲染時間以及 GPU 內存使用量。
這篇研究論文介紹了 FAST-Splat,一種用於高斯樣條函數的快速、無歧義語義轉移方法。FAST-Splat 解決了現有語義高斯樣條函數方法的主要限制,即訓練和渲染速度慢、內存使用量大以及語義對象定位模糊。
研究目標:
開發一種快速、無歧義的語義高斯樣條函數方法,以解決現有方法的局限性。
通過將封閉集語義蒸餾擴展到開放集(開放詞彙)設置,實現精確的語義對象定位。
利用高斯樣條函數場景表示的顯式形式來保持其卓越的訓練和渲染速度。
方法:
封閉集語義高斯樣條函數:
使用對象檢測器(如 YOLO)從數據集圖像中生成對象列表和邊界框。
使用開放集對象檢測器(如 GroundingDINO)增強對象檢測結果,以提高穩健性。
利用圖像分割模型(如 SAM-2)生成像素級語義圖。
通過將仿射變換應用於每個橢圓體的語義屬性,將像素級語義信息提取到高斯樣條函數模型中。
使用多類交叉熵損失函數優化語義屬性。
開放詞彙語義高斯樣條函數:
使用預先訓練的文本編碼器(如 CLIP)計算字典中檢測到的對象類的文本嵌入。
在運行時,計算用戶提供的自然語言提示的文本嵌入。
通過計算字典嵌入和查詢嵌入之間的餘弦相似度來識別場景中語義相關的對象。
提供相關對象的精確語義標籤、分割蒙版和位置。
主要發現:
FAST-Splat 的數據預處理速度比現有最佳方法快至少 13 倍,訓練速度快 4 到 8 倍。
與現有方法相比,FAST-Splat 的渲染速度提高了 18 到 75 倍,同時所需的 GPU 內存減少了約 3 倍。
在語義對象定位方面,FAST-Splat 在某些場景中優於現有方法,而在其他場景中則取得了第二好的性能。
FAST-Splat 能夠消除語義對象定位中的歧義,即使是面對模糊的用戶提供的自然語言查詢。
主要結論:
FAST-Splat 是一種快速、高效且無歧義的語義高斯樣條函數方法。
通過利用高斯樣條函數表示的顯式形式,FAST-Splat 在保持高保真度場景重建的同時,顯著減少了訓練和渲染時間以及 GPU 內存使用量。
FAST-Splat 的語義消歧能力增強了對 3D 場景的理解,使其適用於機器人探索或操作等下游應用。
局限性和未來研究方向:
FAST-Splat 的性能在很大程度上取決於封閉集對象檢測器的檢測性能,而現有檢測器的對象類別數量有限。
未來的工作將探索使用在更大、更多樣化的數據集上訓練的封閉集對象檢測器,或利用圖像標記模型或多模態視覺語言模型來增強對象檢測。
统计
與現有最佳方法相比,FAST-Splat 的數據預處理速度至少快 13 倍。
FAST-Splat 的訓練速度比現有最佳方法快 4 到 8 倍。
FAST-Splat 的渲染速度比現有最佳方法快 18 到 75 倍。
與現有最佳方法相比,FAST-Splat 需要的 GPU 內存減少了 3 倍以上。