Core Concepts
マルチモーダル大規模言語モデルは視覚情報を処理することはできるが、人間のような深い視覚的理解は持っていない。
Abstract
本論文は、マルチモーダル大規模言語モデルの視覚知覚能力を評価するための新しいベンチマーク「Blink」を提案している。Blinkは14の古典的なコンピュータービジョンタスクを再構成したものであり、相対的な深さの推定、視覚的対応関係の特定、フォレンジック検出、多視点推論など、人間が瞬時に解決できるが現在のマルチモーダルLLMにとって大きな課題となるタスクが含まれている。
実験の結果、人間の平均正解率が95.70%であるのに対し、最も優れたマルチモーダルLLMであるGPT-4Vとゲミニプロの正解率はそれぞれ51.26%と45.72%にとどまり、ランダムよりわずかに良い程度であることが示された。一方、専門のコンピュータービジョンモデルはマルチモーダルLLMを大きく上回る成績を収めた。これらの結果は、マルチモーダルLLMの視覚知覚能力が従来過大評価されていたことを示唆している。
Blinkは、マルチモーダルLLMの視覚知覚能力を正確に評価し、人間レベルの視覚理解を目指すための重要なテストベッドとなると考えられる。
Stats
人間の平均正解率は95.70%である。
GPT-4Vの正解率は51.26%で、ランダムよりわずかに良い程度である。
ゲミニプロの正解率は45.72%で、ランダムよりわずかに良い程度である。
専門のコンピュータービジョンモデルはマルチモーダルLLMを大きく上回る成績を収めた。
Quotes
"Blink contains 14 classic computer vision tasks, ranging from low-level pattern matching (e.g., visual correspondences estimation) to mid-level reasoning (e.g., relative depth estimation), and extending to high-level visual understanding (e.g., visual similarity)."
"We carefully evaluate 17 multimodal LLMs with various sizes (i.e., 7B, 13B, 34B) on Blink. We observe the paradox that while these problems are easy for humans (95.70% average accuracy), they are extremely hard for existing machinery – even GPT-4V model can only achieve 51.26% accuracy on average, which is 44.44% worse than humans, and 13.17% better than random guessing."