核心概念
現有的音視覺大型語言模型容易產生跨模態幻覺,難以準確理解音訊和視覺訊號之間的關係,需要更強大的基準測試和訓練方法來提高其穩健性。
摘要
AVHBench:音視覺大型語言模型之跨模態幻覺基準測試
研究目標:
本研究旨在評估音視覺大型語言模型 (LLM) 在處理音訊和視覺訊號時的感知和理解能力,特別關注其對跨模態幻覺的穩健性。
研究方法:
- 本研究提出了 AVHBench,一個包含 5,816 個問答對和 1,238 個音視覺字幕的基準測試,涵蓋四個任務:音訊驅動的視覺幻覺、視覺驅動的音訊幻覺、音視覺匹配和音視覺字幕。
- 為了構建數據集,研究人員設計了一個半自動化的標註流程,利用現有數據集(VALOR 和 AudioCaps)的視訊和標註,並結合視覺標籤模型 (RAM++) 和 ChatGPT 自動生成問答對和字幕。
- 研究人員在六個最新的音視覺 LLM 上評估了 AVHBench,並分析了它們在不同輸入模態(多模態、單模態和文字描述)下的表現。
主要發現:
- 現有的音視覺 LLM 容易產生跨模態幻覺,例如從視覺線索中聽到不存在的聲音,或從音訊線索中感知到不存在的視覺事件。
- 與使用多模態輸入相比,這些模型在使用單模態輸入或文字描述輸入時表現更好,這表明它們在處理複雜的多模態訊號時存在困難。
- 通過增強音訊特徵與 LLM 之間的對齊,以及使用 LoRA 微調模型,可以提高模型對跨模態幻覺的穩健性。
主要結論:
- 現有的音視覺 LLM 在理解和推理音訊和視覺訊號之間複雜關係方面仍有很大的改進空間。
- AVHBench 為評估和分析這些模型的跨模態幻覺提供了一個有價值的工具。
- 未來需要探索更強大的訓練方法和更複雜的數據集,以進一步提高音視覺 LLM 的穩健性和可靠性。
研究意義:
本研究揭示了音視覺 LLM 中跨模態幻覺的普遍存在,並提供了一個評估和分析這些現象的基準測試。這項工作為開發更強大、更可靠的音視覺理解模型奠定了基礎,並對各種應用(如視訊理解、人機交互和多模態內容生成)具有重要意義。
研究限制和未來方向:
- 本研究使用的數據集規模相對較小,未來需要構建更大、更多樣化的數據集,以更全面地評估模型的性能。
- 本研究主要關注跨模態幻覺,未來可以進一步研究其他類型的錯誤,例如語義理解錯誤和推理錯誤。
- 未來可以探索更先進的訓練方法,例如多任務學習和對抗訓練,以提高模型的穩健性和泛化能力。
統計資料
AVHBench 數據集包含 5,816 個問答對和 1,238 個音視覺字幕。
這些數據分佈在四個任務中:音訊驅動的視覺幻覺、視覺驅動的音訊幻覺、音視覺匹配和音視覺字幕。
研究人員使用了六個最新的音視覺 LLM 進行評估。
訓練數據集包含 10,327 個視訊和 87,624 個問答對。
引述
“Hallucinations, as illustrated in Fig. 1-[Left], denote that audio-visual LLMs hear imaginary sounds from visual cues or perceive fake visual events from audio cues.”
“Our evaluation results on AVHBench reveal that current audio-visual LLMs are prone to both audio-driven and video-driven hallucinations.”
“This implies that the models’ limited capacity to handle complex multimodal signals may be a potential factor in these hallucinations.”