Core Concepts
다양한 모달리티 정보를 통합하여 복잡한 시각적 추론 과제를 해결하는 것이 핵심이다.
Abstract
이 논문은 다중 모달 체인-오브-쓰잉(CoT) 프레임워크인 Cantor를 제안한다. Cantor는 시각적 정보와 논리적 추론을 통합하여 복잡한 시각적 추론 과제를 해결한다.
Cantor의 의사결정 생성 단계에서는 MLLM 또는 LLM을 의사결정 생성기로 사용하여 시각적 및 텍스트 정보를 동시에 처리하고 분석한다. 이를 통해 실제 상황과 더 잘 부합하는 의사결정을 내릴 수 있다.
또한 Cantor는 MLLM의 고급 인지 기능을 활용하여 다양한 전문가 역할을 수행하도록 하여 CoT 생성 과정을 향상시킨다. 전문가 모듈은 고수준 정보를 직접 제공하여 후속 통합 추론의 부담을 줄인다.
실험 결과, Cantor는 ScienceQA와 MathVista 데이터셋에서 기존 방법들을 크게 능가하는 성능을 보였다.
Stats
샘플 A의 입자 질량: 44 u
샘플 A의 평균 입자 속도: 1,400 m/s
샘플 B의 입자 질량: 46 u
샘플 B의 평균 입자 속도: 1,400 m/s
Quotes
"시각적 정보는 의사결정 생성 단계에서 매우 중요하다."
"MLLM의 고급 인지 기능을 활용하여 다양한 전문가 역할을 수행하도록 함으로써 CoT 생성 과정을 향상시킬 수 있다."