MMMU-Pro 是 MMMU 基準測試的更強大版本,旨在更準確和嚴格地評估模型在跨學科領域的多模態理解和推理能力。
MMMU-Pro 採用三步驟構建過程:
實驗結果表明,MMMU-Pro 有效地降低了模型的表現,突出了當前多模態模型在真正理解和推理方面的局限性。進一步分析發現,雖然Chain of Thought (CoT)提示通常可以提高性能,但效果因模型和設置而異。有趣的是,顯式的OCR提示對大多數模型的性能影響並不重大,表明先進的多模態模型已經具備了從圖像中提取文本的強大能力。但這一結果也突出了,當文本嵌入在圖像中時,單純的OCR是不足以解決MMMU-Pro提出的挑戰的。
MMMU-Pro 為多模態AI的未來研究提供了更嚴格的評估工具,更貼近現實世界的應用場景,並指出了需要進一步提升的關鍵能力,如在增加選項數量和整合視覺-文本信息方面的精確性。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies