核心概念
最新のVision-Languageモデル(VLM)は目覚ましい進歩を遂げているものの、Bongard問題のような抽象的な視覚的推論を必要とするタスクにおいては、依然として人間の能力には及ばない。
要約
Bongard問題:AIを悩ませる視覚パズル - その理由を探る
本稿は、最新のVision-Languageモデル(VLM)がBongard問題において示す課題と限界について詳細に分析した研究論文である。
本研究は、最新のVLMがBongard問題を解く能力を人間と比較し、その長所と限界を明らかにすることを目的とする。特に、VLMがBongard問題の背後にあるルールを発見する能力、人間の推論能力との比較、VLMの視覚的認識能力の限界について焦点を当てる。
100個のBongard問題を用いて、GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 37、LLaVA v1.6-34b、LLaVA v1.5-13bを含む複数のVLMを評価。
各VLMに各Bongard問題を3回解かせ、その回答をLLM審査員(GPT-4oを使用)が評価。
VLMのパフォーマンスを人間の成績と比較。
4つのBongard問題(#16、#29、#36、#55)を詳細に分析し、VLMの視覚的認識能力を評価。