核心概念
本文指出,現有的點雲遮罩自編碼器(MAE)方法直接將遮罩部分的中心點資訊洩露給解碼器,導致預訓練任務過於簡單,編碼器無法有效學習語義特徵。為了解決這個問題,本文提出了 PCP-MAE,通過預測遮罩部分的中心點位置來引導編碼器學習更豐富的語義表示。
摘要
PCP-MAE:學習預測點遮罩自編碼器的中心點
研究背景
點雲是一種廣泛使用的三維物體表示方法,能夠豐富地表達其幾何資訊。近年來,自監督學習(SSL)在點雲理解領域取得了顯著進展,其中遮罩自編碼器(MAE)表現出強大的可擴展性和優越的性能。然而,與二維圖像不同,點雲中的位置嵌入包含了豐富的幾何和語義資訊。現有的點雲 MAE 方法直接將遮罩部分的中心點資訊提供給解碼器,導致預訓練任務過於簡單,編碼器無法有效學習語義特徵。
研究方法
為了解決上述問題,本文提出了 PCP-MAE,通過預測遮罩部分的中心點位置來引導編碼器學習更豐富的語義表示。具體而言,PCP-MAE 包含以下幾個關鍵組成部分:
- 預測中心模組(PCM): PCM 與編碼器共享參數,並利用交叉注意力機制從可見部分和遮罩部分中獲取資訊,以預測遮罩部分的中心點位置。
- 中心點預測損失函數: PCP-MAE 使用 L2 損失函數來最小化預測的中心點位置與真實值之間的差異。
- 遮罩點重建損失函數: PCP-MAE 使用 L2 Chamfer 距離損失函數來計算預測的遮罩點與真實值之間的差異。
實驗結果
在 ScanObjectNN、ModelNet40 和 ShapeNetPart 等數據集上進行的大量實驗表明,PCP-MAE 在目標分類、小樣本學習和分割等任務上均取得了優於 Point-MAE 的性能。
主要貢獻
本文的主要貢獻包括:
- 發現現有點雲 MAE 方法的預訓練目標存在缺陷: 本文指出,直接將遮罩部分的中心點資訊洩露給解碼器會導致預訓練任務過於簡單。
- 提出了一種新的點雲自監督學習方法: PCP-MAE 通過預測遮罩部分的中心點位置來引導編碼器學習更豐富的語義表示。
- 在多個基準數據集上取得了最先進的性能: PCP-MAE 在目標分類、小樣本學習和分割等任務上均取得了優於現有方法的性能。
統計資料
PCP-MAE 在 ScanObjectNN 數據集的 OBJ-BG、OBJ-ONLY 和 PB-T50-RS 三個變體上分別優於 Point-MAE 5.50%、6.03% 和 5.17%。
PCP-MAE 在 ModelNet40 數據集上,無投票和有投票的情況下分別優於 Point-MAE 0.8% 和 0.4%。
PCP-MAE 在 ModelNet40 數據集的 5-way, 10-shot; 5-way, 20-shot; 10-way, 20-shot 小樣本學習實驗中,分別優於 Point-MAE 1.1%、1.3%、0.9% 和 0.9%。
PCP-MAE 在 ShapeNetPart 數據集上,Cls.mIoU 達到 84.9%,優於 Point-MAE 0.7%。
PCP-MAE 在 S3DIS 數據集上,mAcc 和 mIoU 分別優於 Point-MAE 1.1% 和 0.5%。
引述
"We find almost all existing MAE-based methods focus on structural improvement, employing the same reconstruction objective as Point-MAE. However, as shown in Fig. 1, we claim again that this reconstruction objective is not suitable to directly adopt from 2-D to point clouds."
"The gap between 2-D and point cloud data reveals that the coordinates of the centers (i.e. positional embeddings) are essential in the point cloud field, meaning that the decoder can even abandon the output of the encoder and still reconstruct well."