核心概念
提出一個簡單而強大的框架,通過跨模態去噪任務實現語音和圖像特徵的細粒度對齊,從而顯著提升語音-圖像檢索的性能。
摘要
本文提出了一個創新的框架和一項新的跨模態學習任務——跨模態去噪(CMD),以增強跨模態交互並實現細粒度的跨模態對齊。
具體來說:
- 框架包括三個編碼器:語音編碼器、圖像編碼器和多模態融合編碼器。語音編碼器和圖像編碼器分別提取語音和圖像特徵,多模態融合編碼器負責實現跨模態的細粒度對齊。
- CMD是一項去噪任務,旨在通過利用另一模態的特徵來重建某一模態中的語義特徵。這有助於語音特徵聚焦於特定的圖像區域上下文,從而實現細粒度的跨模態對齊。
- 實驗結果表明,與最先進的方法相比,在Flickr8k和SpokenCOCO數據集上的語音-圖像檢索任務中,本文的框架分別提高了2.0%和1.7%的平均R@1。這驗證了該框架的有效性和高效性。
統計資料
我們的框架只有14M個可訓練參數,卻能顯著提升語音-圖像檢索的性能。
在Flickr8k數據集上,與最先進的方法相比,我們的框架在平均R@1、R@5和R@10指標上分別提高了2.0%、2.4%和1.9%。
在SpokenCOCO數據集上,我們的框架在平均R@1、R@5和R@10指標上分別提高了1.7%、0.7%和0.7%。
引述
"我們提出了一個簡單而強大的框架,只有14M個可訓練參數,就能顯著提升語音-圖像檢索的性能。"
"我們引入了一項新的跨模態學習任務——跨模態去噪(CMD),以增強跨模態交互,實現細粒度的跨模態對齊。"
"實驗結果表明,與最先進的方法相比,我們的框架在Flickr8k和SpokenCOCO數據集上的語音-圖像檢索任務中,分別提高了2.0%和1.7%的平均R@1。"