Core Concepts
학습 추상적 시각 추론을 통한 Raven Progressive Matrices의 태스크 분해
Abstract
추상적 추론을 수행하는 것은 중간 하위 목표로의 태스크를 분해하는 것을 필요로 합니다.
RPM은 컴포지트 이미지를 특징으로 하는 컨텍스트와 답변을 제공하며, 이를 선택하는 것이 목표입니다.
깊은 학습 아키텍처를 제안하여 RPM 문제를 두 단계로 분해합니다.
모델은 시각 입력을 토큰으로 파싱하고 자가 지도 학습에서 입력의 일부를 가리는 여러 방법을 고려합니다.
실험 평가에서 모델은 최신 방법을 능가하며 추론에 대한 흥미로운 통찰력과 부분적 설명을 제공합니다.
Stats
RPM 문제의 원래 컬렉션은 60개의 작업으로 구성되어 있습니다.
RAVEN과 I-RAVEN과 같은 대규모 데이터 세트 및 작업 생성기가 개발되었습니다.
모델은 상태-of-the-art 방법을 능가하고 실험적 평가에서 흥미로운 통찰력을 제공합니다.
Quotes
"Learning to perform abstract reasoning often requires decomposing the task in question into intermediate subgoals that are not specified upfront, but need to be autonomously devised by the learner."
"In this study, we propose a deep learning architecture based on the transformer blueprint which, rather than directly making the above choice, addresses the subgoal of predicting the visual properties of individual objects and their arrangements."