本研究では、「IsoBench」と呼ばれる新しいベンチマークを提案している。IsoBenchには数学、科学、アルゴリズム、ゲームの4つの主要分野から合計1,630の問題が含まれており、各問題には視覚的な表現と複数の等価な文字表現が用意されている。
IsoBenchを用いて、GPT-4、Gemini、Claude-3などの主要なマルチモーダル基盤モデルを評価した結果、これらのモデルはテキストのみの入力に比べて、画像入力では大幅に性能が低下することが分かった。例えば、Claude-3 Opusは画像入力の場合、テキスト入力に比べて28.7ポイント低下した。
さらに、2つの新しい手法「IsoCombination」と「IsoScratchPad」を提案し、これらの手法を用いることで、一部の問題では画像入力の性能を大幅に改善できることを示した。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Deqing Fu,Gh... ב- arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01266.pdfשאלות מעמיקות