toplogo
Sign In

다차원 추상 시각 추론을 위한 MARVEL: 시각적 평가 및 학습을 통한 다차원 추상화와 추론


Core Concepts
다차원 추상 시각 추론 능력을 평가하기 위해 MARVEL이라는 새로운 벤치마크를 소개하며, 현재 최첨단 다중 모달 대형 언어 모델들의 추상 시각 추론 성능이 인간에 크게 못 미치는 것을 밝힌다.
Abstract
MARVEL은 기하학적 및 추상적 입력 도형, 6가지 핵심 패턴, 5가지 과제 구성을 포함하는 770개의 퍼즐로 구성된 다차원 추상 시각 추론 벤치마크이다. 이를 통해 다중 모달 대형 언어 모델의 추상 시각 추론 능력을 종합적으로 평가할 수 있다. MARVEL의 계층적 평가 프레임워크는 지각 질문과 추상 시각 추론 질문을 결합하여, 모델의 시각적 세부 사항 이해와 추론 일관성을 진단한다. 9개의 대표적인 다중 모달 대형 언어 모델을 대상으로 한 실험 결과, 모든 모델이 인간 수준 성능과 비교하여 40% 이상의 큰 격차를 보였다. 지각 질문 분석 결과, 모델들이 시각적 세부 사항을 이해하는 데 어려움을 겪어 추론 능력이 제한되는 것으로 나타났다.
Stats
실험에 참여한 30명의 인간 평가자들의 평균 성능은 68.86%였다. 모든 다중 모달 대형 언어 모델들은 추상 시각 추론 질문에서 거의 무작위 수준의 성능을 보였다. 폐쇄형 다중 모달 대형 언어 모델들의 평균 성능은 25.7%였고, 오픈소스 모델들의 평균 성능은 24.0%였다. 가장 우수한 성능을 보인 모델인 Claude3 (Opus)도 인간 대비 40% 이상 낮은 성능을 보였다.
Quotes
"다중 모달 대형 언어 모델들이 많은 인기 시각 추론 벤치마크에서 큰 진전을 보였지만, 추상 시각 추론 능력을 보유하고 있는지는 여전히 미지수이다." "MARVEL은 6가지 핵심 패턴, 기하학적 및 추상적 도형, 5가지 과제 구성으로 구성된 다차원 추상 시각 추론 벤치마크이다." "실험 결과, 모든 다중 모달 대형 언어 모델들이 추상 시각 추론 질문에서 거의 무작위 수준의 성능을 보였으며, 인간 대비 40% 이상의 큰 격차를 보였다."

Deeper Inquiries

추상 시각 추론 능력 향상을 위해 어떤 새로운 모델 구조나 학습 방법이 필요할까?

추상 시각 추론 능력을 향상시키기 위해서는 다음과 같은 새로운 모델 구조나 학습 방법이 필요합니다: 시각적 지각 능력 강화: 모델이 시각적 세부 사항을 더 잘 이해하고 해석할 수 있도록 하는 것이 중요합니다. 이를 위해 시각적 지각 능력을 강화하는 모델 구조나 학습 방법이 필요합니다. 추상적 패턴 학습: 모델이 다양한 추상적 패턴을 학습하고 적용할 수 있도록 하는 구조와 학습 방법이 필요합니다. 이를 통해 모델이 복잡한 시각적 추론을 수행할 수 있게 됩니다. 다중 모달 접근: 시각적 정보뿐만 아니라 다른 모달리티의 정보도 활용하여 추론을 수행할 수 있는 모델 구조가 필요합니다. 이를 통해 모델이 더 풍부한 정보를 활용하여 추상 시각 추론을 개선할 수 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star