本文提出了一種新的雙向後門攻擊方法,以填補跨模態後門攻擊的缺失,並提出了一個通用的隱形後門攻擊框架(BadCM)。該框架能夠有效地在視覺和語言模態中植入隱形後門,並在不同的跨模態應用中展現出良好的效果和泛化能力。
MIO是一個新型的多模態基礎模型,能夠以端到端、自回歸的方式理解和生成文本、圖像、語音和視頻。
OneEncoder是一個輕量級框架,能夠以低成本有效地將圖像、文本、音頻和視頻等四種模態進行對齊,即使在缺乏大量對齊數據集的情況下也能表現出色。
提出一個簡單而強大的框架,通過跨模態去噪任務實現語音和圖像特徵的細粒度對齊,從而顯著提升語音-圖像檢索的性能。
提出了一種名為CrossFire的創新對抗性攻擊方法,能有效欺騙多模態模型的下游任務。CrossFire通過將目標輸入轉換為與原始圖像/音頻文件相同模態的"轉換輸入",並將其與經過精心設計的微小擾動的圖像/音頻文件在嵌入空間中對齊,從而成功誤導下游任務產生期望的輸出。