本研究提出了一種新的多模態泛化類別發現(Multimodal Generalized Category Discovery, MM-GCD)框架。與現有的單模態泛化類別發現方法不同,MM-GCD能夠同時利用來自不同模態(如文本和圖像)的信息,從而在已知和未知類別之間實現更準確的分類。
通過理論分析和實驗驗證,研究團隊發現,多模態泛化類別發現的關鍵挑戰在於如何有效地對齊不同模態之間的異構信息。為此,他們提出了MM-GCD框架,利用對比學習和蒸餾技術對特徵空間和輸出空間進行對齊,從而更好地整合不同模態的信息。
在UPMC-Food101和N24News數據集上的實驗結果表明,MM-GCD在泛化類別發現任務上取得了新的最佳成績,分別超過之前方法11.5%和4.7%。此外,利用多模態信息相比單模態方法可以提升6.8%和3.4%的性能,突出了不同模態提供的互補和豐富信息在泛化類別發現任務中的重要性。可視化結果也證實,所提出的對齊目標有效地縮小了模態差距,同步化了特徵空間。消融實驗進一步表明,如果沒有這些對齊,性能將下降18.8%,甚至低於單模態基線。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies