Core Concepts
大規模な生成型AIシステムは、視覚的な数量化能力が乏しく、小さな数の物体でさえ正確に数えることができない。
Abstract
本研究では、大規模な生成型AIシステムの視覚的な数量化能力を調査した。具体的には、画像-テキスト変換モデルのViLTやBLIP-2、最新の多モーダルモデルのGPT-4VやGemini、そして画像生成モデルのStable Diffusion、DALL-E 2、DALL-E 3を対象に、数量化ネーミングタスクと数量化生成タスクを実施した。
その結果、ほとんどのモデルが数量化能力に大きな欠陥を抱えていることが明らかになった。小さな数の物体でさえ正確に数えることができず、大きな数の物体に対する応答の変動性もヒトの数感とは一致しないパターンを示した。唯一、最新のGPT-4VとDALL-E 3が、ある程度ヒトの数感に近い特性を示した。
これらの結果は、大規模な生成型AIシステムにおいて、視覚的な数量化能力が未だ大きな課題であることを示している。数量化能力の欠如は、数学的な知識の獲得にも悪影響を及ぼす可能性がある。今後、AIシステムの基本的な知覚能力の向上に向けた研究が重要であると考えられる。
Stats
視覚的な数量化タスクにおいて、ViLTとBLIP-2モデルの正答率は28.0%と29.6%と非常に低かった。
GPT-4VとGeminiモデルの正答率は73.9%と70.6%と高かったが、小数点以下の数値の表現に課題があった。
DALL-E 2とStable Diffusionの数量生成タスクの正答率は38.7%と33.3%と低かった。DALL-E 3は47.7%と最も高かったが、小数点以下の数値の生成にも課題があった。
Quotes
"大規模な生成型AIシステムにおいて、視覚的な数量化能力が未だ大きな課題である。"
"数量化能力の欠如は、数学的な知識の獲得にも悪影響を及ぼす可能性がある。"