Core Concepts
실제 세계 응용 프로그램에서 질문의 유효성을 확인하고 이를 사용자에게 전달하는 것이 중요하다. 이를 위해 VISREAS 데이터셋을 소개하며, 기존 모델의 한계를 극복하기 위한 LOGIC2VISION 모델을 제안한다.
Abstract
이 논문은 실제 세계 응용 프로그램에서 질문의 유효성을 확인하고 이를 사용자에게 전달하는 것이 중요하다는 점을 강조한다. 이를 위해 VISREAS라는 새로운 시각적 질문 답변 데이터셋을 소개한다.
VISREAS 데이터셋은 다음과 같은 특징을 가진다:
객체, 속성, 관계의 공통점과 차이점을 탐색하는 복합적인 질문으로 구성됨
답변 가능한 질문과 답변 불가능한 질문을 모두 포함하고 있어, 질문의 유효성을 확인하는 능력을 평가할 수 있음
2.07M개의 다양한 질문으로 구성되어 있으며, 각 질문에 대한 추론 과정을 의사코드로 제공함
기존 모델들은 VISREAS 데이터셋에서 좋은 성능을 보이지 못했다. 이에 저자들은 LOGIC2VISION이라는 새로운 모델을 제안한다. LOGIC2VISION은 질문을 분석하여 추론 과정을 의사코드로 생성하고, 이를 바탕으로 이미지를 분석하여 답변을 생성한다. 실험 결과, LOGIC2VISION은 기존 모델들보다 우수한 성능을 보였다.
Stats
질문에 언급된 객체가 3.91개로, GQA(1.12개)와 CLEVR(1.63개)에 비해 많음
질문당 평균 1.42개의 관계 추론 단계가 필요하여, GQA(0.52개)와 CLEVR(0.84개)보다 복잡함
Quotes
"실제 세계 응용 프로그램에서 질문의 유효성을 확인하고 이를 사용자에게 전달하는 것이 중요하다."
"VISREAS 데이터셋은 객체, 속성, 관계의 공통점과 차이점을 탐색하는 복합적인 질문으로 구성되어 있다."
"LOGIC2VISION은 질문을 분석하여 추론 과정을 의사코드로 생성하고, 이를 바탕으로 이미지를 분석하여 답변을 생성한다."