雖然多模態動態融合在生物醫學分類任務中展現潛力,但模態資訊量的預測仍存在挑戰,而特徵資訊量則為提升模型效能和可解釋性提供了可行的方向。
本文提出了一種基於泊松-能斯特-普朗克方程的廣義多模態融合方法(GMF),透過將特徵視為帶電粒子並控制其解離、濃縮和重構,有效地解決了傳統多模態融合方法在特徵提取效率、數據完整性、特徵維度一致性和跨不同下游任務的適應性方面的挑戰。
本文提出了一種新的多模態融合框架——部分-整體關係融合(PWRF),用於解決多模態場景理解問題。該框架將多模態融合視為部分-整體關係融合,利用膠囊網絡的路由能力,將多個獨立的部分級模態路由到融合的整體級模態,從而生成模態共享和模態特定語義,並應用於合成多模態語義分割和可見光-深度-熱成像顯著目標檢測等任務,實驗結果證明了PWRF框架的有效性。
本研究探討了三種融合熱感、RGB 和 LiDAR 影像數據的方法,用於繪製三個生物物理景觀特徵:犀牛糞堆、白蟻丘和水體。研究發現,雖然三種方法的整體表現相似,但它們在不同類別上的表現差異很大,這表明針對特定任務選擇最佳融合策略的重要性。
本文提出了一種新的多模態融合框架MDA,通過構建模態之間的線性注意力關係,實現了對不同模態的自適應調整權重,從而提高了多模態數據的表示能力,並能夠包容缺失模態或內在噪音。