本研究介紹了 MTVQA,這是一個新穎且高品質的多語言以文字為中心的視覺問答(TEC-VQA)基準測試,涵蓋九種語言:阿拉伯語、韓語、日語、泰語、越南語、俄語、法語、德語和義大利語。
現有的 TEC-VQA 基準測試主要關注英語和中文等高資源語言,而忽略了低資源語言的需求。翻譯引擎雖然可以擴展問答對,但在 TEC-VQA 中卻面臨著「視覺-文字錯位」的問題,因為它只處理文字資訊,而忽略了圖像中的關鍵視覺文字。
MTVQA 的數據集包含從真實世界收集的文字豐富的圖像,並由九種語言的人工專家進行了精心標註。數據收集過程包括從公開數據集和網路資源中獲取圖像,並使用多語言 OCR 引擎提取文字資訊。人工標註採用「提出-修正」的範式,確保了問答對的準確性和一致性。
MTVQA 基準測試包含 8,794 張圖像和 28,607 個問答對,涵蓋九種語言,分為訓練集和測試集。數據集涵蓋了超過 20 個細粒度場景,包括菜單、標誌、地圖、賬單、PPT、研究論文等。
研究評估了三種類型的最先進的多模態大型語言模型(MLLM):開源通用 MLLM、開源以文字為中心的 MLLM 和閉源 MLLM。
研究採用準確率作為評估指標,用於衡量模型預測的答案與問題的目標答案相匹配的百分比。
為了建立人類在 MTVQA 上的表現基準,研究為每種語言隨機選擇了 10 位受過良好教育的母語人士進行測試。
在 MTVQA 基準測試上對各種 MLLM 進行了零樣本評估,結果顯示,雖然 MLLM 在理解多語言文字方面具有一定的能力,但其表現仍然不夠穩健,遠遠落後於人類的表現。
在 MTVQA 基準測試上進行的指令微調實驗表明,MLLM 在理解和學習不同語言的以文字為中心的數據方面能力各不相同,這為未來多語言以文字為中心的 MLLM 預訓練研究留下了巨大的潛力。
在 MTVQA 上對 GPT-4V 進行了少樣本評估,結果顯示,與零樣本設置相比,GPT-4V 在少樣本設置下的表現有了顯著提高,突出了其在多語言文字理解環境中出色的上下文學習能力。
將基於文字的 LLM 和使用 OCR 結果的 MLLM 在 MTVQA 基準測試上的表現進行了比較,結果顯示,OCR+GPT-4V 的表現優於 GPT-4 和 OCR+GPT-4,但三種設置的表現都很差,多語言視覺文字的理解仍然是一個具有挑戰性的問題。
MTVQA 作為第一個提供針對以文字為中心的場景的完全人工標註的基準測試,為評估多語言視覺文字理解能力提供了一個有價值的平台。研究結果表明,即使是最先進的 MLLM 在多語言以文字為中心的場景中仍有改進的空間,這為未來的研究提供了方向。
翻譯成其他語言
從原文內容
arxiv.org
深入探究