核心概念
最新のビジョン言語モデル(VLM)は、一見単純な数学的問題のバリエーションに対しても、その推論能力に限界がある。
要約
ビジョン言語モデルの数学的推論における堅牢性評価:動的ベンチマークDynaMathの提案
本稿は、最新のビジョン言語モデル(VLM)の数学的推論における堅牢性を評価する新たなベンチマーク、DynaMathを提案する研究論文である。
本研究は、既存の静的な数学的推論ベンチマークでは測定できない、VLMの動的な問題状況への対応能力、すなわち数学的推論の堅牢性を評価することを目的とする。
動的ベンチマークDynaMathの構築: 既存のデータセットや独自に作成した問題を含む501個の数学的問題(シード問題)を収集し、それぞれの問題に対して、数値、図形、関数、記号などをプログラムで動的に変化させることで、多様なバリエーションを持つ問題を生成する仕組みを構築した。
VLMの評価: GPT-4o、Gemini Pro 1.5、Claude-3.5 Sonnet等の主要なVLMを用いて、DynaMathで生成された問題に対する回答精度を評価した。具体的には、各シード問題につき10個のバリエーション問題を生成し、計5010問を用いて評価を行った。
評価指標: 従来の平均精度に加え、10個のバリエーション問題の中で最も低い精度である「最悪ケース精度」を用いることで、VLMの堅牢性を評価した。さらに、同一問題に対する繰り返し回答の一貫性を示す「反復整合性」も評価指標として用いた。