核心概念
多模態互動包括冗餘、獨特和協同三種形式,需要同時建模這三種互動才能學習到通用的多模態表示。
摘要
本文提出了一種新的多模態對比學習方法CoMM,能夠同時捕捉多模態之間的冗餘、獨特和協同信息。
首先,作者理論分析了多模態互動的三種形式:
冗餘(R)指任一模態單獨都包含足夠完成任務的信息。
獨特(U)指只有某一模態包含完成任務所需的全部信息。
協同(S)指多個模態的信息是互補的,需要同時使用才能完成任務。
現有的多模態對比學習方法只能捕捉冗餘信息,無法建模獨特和協同信息。
CoMM的設計包括兩個關鍵點:
使用一個多模態融合架構,將不同模態的特徵融合到一個共享的表示空間。
提出一種新的對比學習目標,能夠自監督地學習到包含冗餘、獨特和協同信息的多模態表示。
理論分析表明,CoMM的目標函數能夠自然地捕捉這三種形式的多模態互動。實驗結果也驗證了CoMM在各種多模態任務上的優秀性能,超越了現有方法。
統計資料
多模態互動的三種形式:
冗餘(R)指任一模態單獨都包含足夠完成任務的信息。
獨特(U)指只有某一模態包含完成任務所需的全部信息。
協同(S)指多個模態的信息是互補的,需要同時使用才能完成任務。
引述
"多模態互動可以以多種方式產生:冗餘(R)、獨特(U)和協同(S)。"
"現有的多模態對比學習方法只能捕捉冗餘信息,無法建模獨特和協同信息。"
"CoMM的目標函數能夠自然地捕捉這三種形式的多模態互動。"