本文提出了一個新的基準測試MME-RealWorld,旨在全面評估多模態大型語言模型(MLLMs)在真實世界場景中的能力。與現有基準測試相比,MME-RealWorld具有以下優勢:
數據規模:通過32名志願者的努力,手工註釋了29,429個問答對,是目前最大的完全人工註釋的基準測試。
數據質量:
任務難度和實用性:即使是最先進的模型,在MME-RealWorld上的準確率也未超過60%,遠低於傳統基準測試。許多真實世界任務比傳統基準測試更加困難,如在遙感圖像中識別和計數小物體,或在監控視頻中計數133輛車輛。
此外,本文還介紹了MME-RealWorld-CN,這是一個專門針對中文場景的子集,包含5,917個問答對。與直接翻譯英文版本相比,這個版本更好地匹配了中文場景,避免了視覺-文本不一致的問題。
實驗結果表明,即使是最先進的模型,在MME-RealWorld上的表現也存在很大差距,感知高解析度圖像和理解複雜真實世界場景仍是亟待解決的挑戰。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yi-Fan Zhang... klokken arxiv.org 09-12-2024
https://arxiv.org/pdf/2408.13257.pdfDypere Spørsmål