Core Concepts
현재 다중 모달 대형 언어 모델은 시각 인식 능력이 부족하며, 이를 개선하기 위한 노력이 필요하다.
Abstract
이 논문은 다중 모달 대형 언어 모델(LLM)의 시각 인식 능력을 평가하기 위한 새로운 벤치마크인 Blink를 소개한다. Blink는 14개의 고전적인 컴퓨터 비전 문제를 다중 선택형 질문-답변 형식으로 재구성하였다. 이를 통해 LLM이 단순한 이미지 인식을 넘어 더 복잡한 시각 인식 능력을 평가할 수 있다.
실험 결과, 인간은 Blink의 문제를 평균 95.7% 정확도로 해결할 수 있지만, 최신 LLM인 GPT-4V와 Gemini는 각각 51.26%와 45.72%의 정확도만을 보였다. 이는 인간과 기계 사이의 큰 시각 인식 격차를 보여준다. 또한 전문 컴퓨터 비전 모델이 LLM보다 월등히 높은 성능을 보였는데, 이는 LLM이 이러한 시각 인식 능력을 아직 충분히 습득하지 못했음을 시사한다.
이 연구는 LLM의 시각 인식 능력 향상을 위한 새로운 방향을 제시하며, Blink 벤치마크가 이를 위한 효과적인 테스트베드가 될 것으로 기대된다.
Stats
인간 평균 정확도: 95.7%
GPT-4V 정확도: 51.26%
Gemini 정확도: 45.72%
전문 컴퓨터 비전 모델이 LLM보다 38.7~62.8% 더 높은 성능을 보임
Quotes
"현재 다중 모달 LLM은 시각 인식 능력이 부족하며, 이를 개선하기 위한 노력이 필요하다."
"인간은 Blink의 문제를 평균 95.7% 정확도로 해결할 수 있지만, 최신 LLM은 51.26%와 45.72%의 정확도만을 보였다."
"전문 컴퓨터 비전 모델이 LLM보다 월등히 높은 성능을 보였는데, 이는 LLM이 이러한 시각 인식 능력을 아직 충분히 습득하지 못했음을 시사한다."