核心概念
本文提出了一種名為 SMMQG 的合成數據生成框架,用於生成基於多模態文檔、符合特定風格和模態要求的多模態問答對,並通過實驗證明了其生成數據的高質量和在評估多模態問答系統方面的有效性。
摘要
本文介紹了一種名為 SMMQG 的合成數據生成框架,用於解決多模態問答領域缺乏高質量數據集的問題。SMMQG 利用檢索器、大型語言模型(LLM)和大型多模態模型(LMM)之間的交互,直接從多模態文檔中生成符合指定風格和模態要求的問答對。作者使用 SMMQG 基於維基百科文檔生成了包含 1024 個問題的多模態問答數據集,並使用該數據集評估了最先進的模型,揭示了模型性能在不同風格和模態下的差異。此外,作者還通過人工評估驗證了 SMMQG 生成數據的高質量,發現其與人工標註的基準數據集 MMQA 相當,且下游評估結果也高度一致。
引言
隨著檢索增強生成(RAG)在基於文本的問答中的廣泛應用,將 RAG 擴展到多模態環境(MMRAG)引起了越來越多的關注。然而,評估 MMRAG 系統面臨著一個主要挑戰,即缺乏與目標問題風格和模態相匹配的高質量數據集。現有數據集通常包含固定的(來源、問題、答案)元組,無法根據特定需求定制評估問題。
問題設定
SMMQG 框架的輸入包括:
多模態來源 S:提供問題生成的上下文信息,包括文本段落、表格和圖像。
問題風格 v:問題風格的描述和示例。
模態要求 M:一個三元組整數 M = (mtext, mtable, mimage),用於指示生成問題的模態,例如 M = (2, 1, 0) 表示生成的問題應為包含兩個文本來源和一個表格來源的跨模態文本-表格問題。
SMMQG 框架的輸出包括:
合成問題 q:其風格取決於輸入的 v。
長格式答案 a:問題的答案。
問題來源引用 Z:其中 zi ∈ S,表示問題 q 只能使用來自 Z 中每個來源的信息來回答,且問題來源的模態必須與 M 相匹配。
方法
SMMQG 由五個步驟組成:
**採樣種子來源:**從多模態來源 S 中選擇一個種子來源 sseed,並通過引入權重 wi 來避免選擇與其他來源無關的異常值。
**提取實體:**使用 GPT-4-Turbo 從種子來源中提取一個突出的實體,例如“網球”、“日本”、“機器學習”等。
**檢索候選來源:**使用 E5-Large 檢索器,以提取的實體作為查詢,檢索與其語義相關的候選來源 ˜Z。
**問題生成:**將 ˜Z、任務指令、問題風格 v、模態要求 M 和三個風格特定的少樣本示例輸入 LLM 或 LMM(取決於是否存在圖像候選來源),生成問題 q、答案 a 和問題來源引用 Z。
**問題驗證:**對生成的問題和答案進行三項檢查:
驗證所選問題來源的模態是否與 M 相匹配。
驗證生成的問題是否符合指定的問答風格。
驗證生成的答案 a 是否正確回答了問題 q,以及 Z 中的每個來源是否都是回答問題所必需的。
實驗
作者使用 SMMQG 基於維基百科文檔構建了一個多模態問答數據集,包含 1024 個問答樣本,涵蓋五種不同的問題風格和所有成對的模態組合。實驗結果表明,SMMQG 可以生成高質量的、符合特定風格和模態要求的問答數據集,並可以用於評估多模態問答系統的性能。
結論
SMMQG 是一個用於生成基於多模態文檔、符合特定風格和模態要求的合成多模態問答的框架。實驗結果表明,SMMQG 生成數據的質量與人工標註的基準數據集 MMQA 相當,並且可以有效地評估多模態問答系統的性能。
統計資料
SMMQG 生成的數據集包含 1024 個問答樣本。
數據集涵蓋五種不同的問題風格,包括信息提取、比較對比、數值計算、複合問題和多跳推理。
數據集包含所有成對的模態組合,包括文本、表格和圖像。
人工評估結果顯示 SMMQG 生成數據的質量與人工標註的基準數據集 MMQA 相當。
SMMQG 和 MMQA 的 Kendall's tau 值分別為 0.87 和 0.86,表明兩者具有高度的一致性。