Khái niệm cốt lõi
本文提出了一種基於 Transformer 的新型自回歸模型 PT43D,用於從單張可能包含高度模糊物件觀察結果的 RGB 影像生成 3D 形狀的機率分佈,並透過模擬產生遮擋和視角截斷的影像-形狀訓練對,以及採用交叉注意力機制,有效提升模型在真實場景中的效能。
Tóm tắt
文獻摘要
本研究提出了一種名為 PT43D 的新型模型,旨在從單張可能包含高度模糊物件觀察結果的 RGB 影像生成 3D 形狀的機率分佈。
研究背景
從單張 RGB 影像生成 3D 形狀在機器人等領域具有重要應用價值。現有方法通常針對包含清晰完整物件視覺描述的影像,而未考慮在現實情況中常見的遮擋或截斷情況。
研究方法
為了解決這個問題,本研究提出了一種基於 Transformer 的自回歸模型 PT43D。該模型採用以下關鍵技術:
- 形狀壓縮和離散化:使用 P-VQ-VAE 將 3D 形狀壓縮成低維度、離散網格表示,並使用碼本對特徵嵌入進行索引。
- 影像編碼器:採用預先訓練的 "ViT-B/32" CLIP 模型提取輸入影像特徵。
- 條件交叉注意力模組:建立影像編碼和網格序列之間的連結,確保輸出網格序列包含用於後續操作的必要影像特徵。
- 自回歸建模:使用 Transformer 模型自回歸地預測每個網格位置的潛在特徵索引,並使用預先訓練的解碼器生成最終的 3D 形狀。
資料增強
為了處理遮擋或視角截斷等真實場景,本研究從 ShapeNet 建立模擬影像-形狀訓練對,並使用 PartNet 的部分級別註釋建立多個可能的真實形狀與單一影像的對應關係。
實驗結果
在合成數據集和真實數據集(ScanNet)上的實驗結果表明,PT43D 模型在生成品質和合理生成多樣性方面均優於現有最佳方法。
主要貢獻
- 提出了第一種從高度模糊 RGB 影像生成 3D 形狀的機率式方法,利用交叉注意力機制有效地從輸入影像中識別最相關的感興趣區域,使不同的輸出假設都能與輸入影像良好對齊。
- 提出了一種合成數據增強方法,透過在訓練期間設定一個影像映射到多個可能的真實形狀,從而實現有效的多假設生成。這種合成數據增強方法能夠進行預先訓練,在對真實數據進行微調時顯著改善形狀重建結果。
Thống kê
平均而言,每個渲染圖都能準確地映射到兩個真實形狀,可見部分的 l2 chamfer 距離低於 0.04。
在實驗中,將 k 設定為 6,與相似群組內的平均模型數量一致。
Trích dẫn
"我們的方法旨在模擬表示潛在 3D 形狀的機率分佈,並以輸入影像作為條件。"
"我們的目標是生成能夠捕捉到解釋輸入影像觀察結果的可能重建分佈的形狀。"