核心概念
本文提出了一種基於霍爾德散度 (H¨older Divergence, HD) 的多視角表徵學習不確定性量化新方法,透過更精確地估計模型預測的不確定性來提升多視角學習的可靠性。
摘要
論文概述
本論文提出了一種名為 HDMVL 的新型多視角表徵學習演算法,旨在解決多視角數據中存在的固有不確定性挑戰,例如數據缺失或噪聲。該方法利用霍爾德散度 (HD) 來估計預測的不確定性,並透過 Dempster-Shafer 理論整合不同模態的不確定性,從而生成考慮所有可用表徵的綜合結果。
研究方法
- 多視角表徵提取: HDMVL 首先透過平行網路分支提取多個模態的表徵。
- 基於 HD 的不確定性估計: 利用 HD 估計每個模態預測的不確定性,相較於傳統的 Kullback-Leibler 散度 (KLD),HD 能更好地衡量真實數據分佈與模型預測分佈之間的“距離”。
- 基於 Dempster-Shafer 理論的模態融合: 透過 Dempster-Shafer 理論整合來自不同模態的不確定性,生成更全面可靠的預測結果。
實驗結果
在四個多視角場景數據集(SUNRGBD、NYUDV2、ADE20K 和 ScanNet)上進行的實驗表明,HDMVL 在分類準確度方面優於現有的 ETMC 模型和其他先進方法。此外,消融實驗證明了 HD 在不確定性測量方面的有效性,而超參數實驗則確定了最佳的霍爾德指數。
主要貢獻
- 增強型目標函數: 利用 HD 的數學特性,提升了 ETMC 模型的目標函數,從而創建了 HDMVL 模型。
- 散度公式: 探討了利用不同散度公式來制定目標函數對分類結果的影響,為改進多視角分類和聚類模型提供了新的見解。
- 實證驗證: 廣泛的實驗證明,HD 在多類別分類和聚類任務中優於 KLD,並強調了其在各種多類別分類和聚類任務中的適應性。
總結
HDMVL 透過引入 HD 和 Dempster-Shafer 理論,有效地解決了多視角表徵學習中的不確定性量化問題,並在多個基準數據集上取得了顯著的性能提升。
統計資料
在 NYUD Depth V2 數據集上,HDMVL 在融合模態分類中達到了 73.64% 的準確率,相較於 ETMC 模型提升了 1.21%。
在 SUN RGB-D 數據集上,HDMVL 的融合模態準確率達到了 62.10%,超過 ETMC 模型 1.25%。
當霍爾德指數為 1.7 時,分類模型的融合模態準確率最高。
引述
"Mathematically, HD proves to better measure the 'distance' between real data distribution and predictive distribution of the model and improve the performances of multi-class recognition tasks."
"Our method outperforms existing methods, offering a systematic analysis, identification of critical determinants, and empirical validation across four multi-view scenario datasets."