본 연구는 추상 패턴을 활용하여 대형 다중 모달 모델의 추론 능력을 평가하고자 한다. 추상 패턴은 색상, 숫자, 모양, 크기와 같은 기본 개념을 기반으로 하며, 시각적 인지, 귀납적 추론, 연역적 추론과 같은 인지 과정을 모방할 수 있다.
연구팀은 PUZZLEVQA라는 다양한 추상 퍼즐 데이터셋을 제안했다. 이 데이터셋은 자동으로 생성되며 각 퍼즐에 대한 추론 설명도 포함하고 있다. 실험 결과, 심지어 GPT-4V와 같은 최신 대형 다중 모달 모델도 단순한 추상 패턴을 일반화하는 데 어려움을 겪는 것으로 나타났다. 분석 결과, 이들 모델의 주요 한계는 시각적 인지와 귀납적 추론 능력 부족인 것으로 확인되었다.
이 연구를 통해 대형 다중 모달 모델의 한계를 밝히고, 향후 이들이 인간의 인지 과정을 더 잘 모방할 수 있는 방향을 제시하고자 한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yew Ken Chia... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13315.pdfDeeper Inquiries