VisScience 是一個全面的基準測試,旨在評估多模態大型語言模型在多模態科學推理任務中的表現。它包含3,000個來自K12教育的問題,平均分佈在數學、物理和化學三個學科,每個學科1,000個問題。這些問題涵蓋21個不同的主題,並分為5個難度級別,為每個學科提供了廣泛的主題範圍。
實驗結果表明,閉源多模態大型語言模型通常優於開源模型。最佳表現包括:數學領域由Claude3.5-Sonnet取得53.4%的準確率,物理領域由GPT-4o取得38.2%的準確率,化學領域由Gemini-1.5-Pro取得47.0%的準確率。這些結果突出了多模態大型語言模型的優勢和局限性,並指出了未來改進的領域,強調了開發能夠有效處理多模態科學推理多樣化需求的模型的重要性。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zhihuan Jian... a las arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.13730.pdfConsultas más profundas