核心概念
MMMU-Pro 是一個更加嚴格的多模態理解和推理基準測試,通過三步驟過程提高了對模型真正理解和推理能力的評估:1)過濾可由純文本模型回答的問題,2)擴充候選選項,3)引入僅視覺輸入設置,挑戰模型同時"看"和"讀"的能力。結果顯示,相比MMMU,模型在MMMU-Pro上的表現大幅下降,突出了當前多模態AI系統在真正理解和推理方面的局限性。
摘要
MMMU-Pro 是 MMMU 基準測試的更強大版本,旨在更準確和嚴格地評估模型在跨學科領域的多模態理解和推理能力。
MMMU-Pro 採用三步驟構建過程:
過濾掉可由純文本模型回答的問題。選擇四個強大的開源語言模型,要求它們在沒有圖像輸入的情況下回答MMMU問題,並排除至少三個模型在大多數試驗中正確回答的問題。
擴充候選選項。將選項數量從4個增加到10個,降低模型依靠猜測得到正確答案的可能性。同時,人工專家審查了原始問題,確保它們與圖像相關,並消除任何缺乏明確聯繫或連貫性的問題。
引入僅視覺輸入設置。人工拍攝包含問題的截圖或照片,要求模型在沒有文本輸入的情況下回答問題。這種設置挑戰模型同時"看"和"讀"的能力,模擬現實世界中文本和圖像自然交織的情況。
實驗結果表明,MMMU-Pro 有效地降低了模型的表現,突出了當前多模態模型在真正理解和推理方面的局限性。進一步分析發現,雖然Chain of Thought (CoT)提示通常可以提高性能,但效果因模型和設置而異。有趣的是,顯式的OCR提示對大多數模型的性能影響並不重大,表明先進的多模態模型已經具備了從圖像中提取文本的強大能力。但這一結果也突出了,當文本嵌入在圖像中時,單純的OCR是不足以解決MMMU-Pro提出的挑戰的。
MMMU-Pro 為多模態AI的未來研究提供了更嚴格的評估工具,更貼近現實世界的應用場景,並指出了需要進一步提升的關鍵能力,如在增加選項數量和整合視覺-文本信息方面的精確性。
統計資料
固體銅棒的長度L = 1.25 m,剪切模量G = 45 GPa。
棒端承受250 N·m的扭矩。
允許的剪切應力為30 MPa,允許的扭轉角為2.5°。