核心概念
本文介紹了一個名為 ChatSearch 的新型對話式圖像檢索數據集和一個名為 ChatSearcher 的生成式檢索模型,該模型能夠根據多輪多模態對話理解用戶意圖並有效地檢索圖像。
本論文介紹了一個名為 ChatSearch 的新型對話式圖像檢索數據集和一個名為 ChatSearcher 的生成式檢索模型。ChatSearch 數據集包含多輪多模態對話,要求檢索模型根據對話內容理解用戶意圖並從數據庫中找到準確的圖像。ChatSearcher 模型採用端到端訓練,能夠接受和生成交錯的圖像-文本輸入/輸出,並展現出強大的多模態上下文推理能力,能夠利用世界知識生成視覺檢索結果。
ChatSearch 數據集
現有數據集缺乏對多輪多模態對話的支持,因此作者創建了 ChatSearch 數據集,用於基於多輪多模態對話進行圖像檢索。
數據集構建過程採用自動化流程,並結合了大型預訓練模型(如 GPT-4、CLIP-H 和 BLIP-2-OPT2.7b)的輔助。
ChatSearch 數據集包含三個子任務:
tChatSearch:基於多輪純文本對話上下文進行圖像檢索。
iChatSearch:基於單輪圖像-文本上下文進行圖像檢索。
mChatSearch:基於多輪多模態對話上下文進行圖像檢索。
ChatSearcher 模型
ChatSearcher 是一個生成式檢索模型,採用端到端訓練,能夠接受和生成交錯的圖像-文本輸入/輸出。
模型架構基於因果解碼器-LLM,並使用 OpenAI 的 CLIP VIT-L 作為視覺骨幹網絡。
訓練過程分為兩個階段:
雙向圖像-文本對齊:使用交錯的圖像-文本數據訓練模型,建立圖像和文本之間的雙向對齊關係。
對話式指令微調:使用包含對話式圖像檢索指令、視覺對話指令和 AIGC 圖像操作指令的數據集對模型進行微調。
實驗結果
ChatSearcher 在 ChatSearch 數據集上取得了優於 CLIP 和 FROMAGe 等基線模型的性能,證明了其在理解圖像-文本交錯對話和識別隱式檢索意圖方面的優勢。
ChatSearcher 在零樣本組合圖像檢索和零樣本基於文本的圖像檢索任務上也表現出色,展現出其强大的泛化能力。
ChatSearcher 在視覺對話任務上也取得了與其他先進模型相當的性能。
總結
ChatSearch 數據集和 ChatSearcher 模型為對話式圖像檢索領域帶來了新的進展,並為增強多模態人機交互提供了新的思路。