Core Concepts
다중 모달 기반 모델은 동일한 문제에 대해 텍스트 입력과 이미지 입력 간에 상당한 성능 차이를 보인다. 이는 인간의 선호도와 상반되는 결과이다.
Abstract
이 연구에서는 IsoBench라는 벤치마크 데이터셋을 소개한다. IsoBench는 수학, 과학, 알고리즘, 게임 등 4개 분야의 1,630개 문제로 구성되어 있으며, 각 문제에 대해 텍스트와 이미지 등 다양한 등가 표현을 제공한다.
이를 통해 다중 모달 기반 모델의 성능을 분석한 결과, 모든 모델이 이미지 입력보다 텍스트 입력에서 더 높은 성능을 보였다. 이는 인간의 선호도와 상반되는 결과이다.
이러한 성능 차이를 해소하기 위해 IsoCombination과 IsoScratchPad라는 두 가지 기법을 제안했다. IsoCombination은 다양한 등가 표현을 결합하여 입력으로 사용하고, IsoScratchPad는 이미지를 텍스트로 변환하여 활용한다. 이 기법들은 특정 도메인에서 성능 향상을 보였다.
Stats
다중 모달 모델 GPT-4 Turbo는 이미지 입력 대비 텍스트 입력에서 18.7점 더 높은 성능을 보였다.
다중 모달 모델 Gemini Pro는 이미지 입력 대비 텍스트 입력에서 14.9점 더 높은 성능을 보였다.
다중 모달 모델 Claude-3 Opus는 이미지 입력 대비 텍스트 입력에서 28.7점 더 높은 성능을 보였다.
Quotes
"다중 모달 기반 모델은 텍스트 입력에서 일관적으로 더 높은 선호도를 보인다."
"이는 인간의 선호도와 상반되는 결과이다. 인간은 이미지에 대한 선호도가 더 높다고 알려져 있다."