이 연구에서는 IsoBench라는 벤치마크 데이터셋을 소개한다. IsoBench는 수학, 과학, 알고리즘, 게임 등 4개 분야의 1,630개 문제로 구성되어 있으며, 각 문제에 대해 텍스트와 이미지 등 다양한 등가 표현을 제공한다.
이를 통해 다중 모달 기반 모델의 성능을 분석한 결과, 모든 모델이 이미지 입력보다 텍스트 입력에서 더 높은 성능을 보였다. 이는 인간의 선호도와 상반되는 결과이다.
이러한 성능 차이를 해소하기 위해 IsoCombination과 IsoScratchPad라는 두 가지 기법을 제안했다. IsoCombination은 다양한 등가 표현을 결합하여 입력으로 사용하고, IsoScratchPad는 이미지를 텍스트로 변환하여 활용한다. 이 기법들은 특정 도메인에서 성능 향상을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Deqing Fu,Gh... alle arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01266.pdfDomande più approfondite