Core Concepts
시각적 질문 답변을 위한 해석 가능한 설계 모델인 동적 단서 병목 모델(DCLUB)을 제안한다. DCLUB는 중간 단계의 인간 가독성 있는 설명을 제공하여 모델의 예측 과정을 이해할 수 있게 하면서도 기존 블랙박스 모델과 유사한 성능을 달성한다.
Abstract
최근 다중 모달 대형 언어 모델(LLM)의 발전으로 시각적 질문 답변(VQA) 성능이 크게 향상되었다. 그러나 이러한 엔드-투-엔드 모델은 내부 계산 과정이 해석 가능하지 않아 신뢰성이 낮고 중요 분야에 적용하기 어렵다는 문제가 있다. 사후 설명은 일부 통찰을 제공할 수 있지만 모델의 실제 예측 과정과 일치하지 않을 수 있다.
이 연구에서는 해석 가능한 설계의 VQA 시스템인 동적 단서 병목 모델(DCLUB)을 제안한다. DCLUB는 예측을 중간 단계의 시각적 단서와 자연어 추론으로 분해하여, 모델의 예측 과정을 투명하게 보여준다. 구체적으로 DCLUB는 먼저 이미지에서 시각적으로 중요한 단서를 자연어로 생성하고, 이를 바탕으로 최종 답변을 예측한다. 이를 통해 DCLUB는 기존 블랙박스 모델과 유사한 성능을 달성하면서도 해석 가능성을 제공한다.
실험 결과, DCLUB는 VQA-v2 데이터셋에서 기존 블랙박스 모델 대비 99.43%의 성능을 달성하고, 추론 중심의 자체 데이터셋에서는 4.64% 더 높은 성능을 보였다. 또한 제안된 시각적 단서 생성기가 제로샷 LLM 기반 단서 생성보다 9.98% 더 나은 성능을 보였다. 이를 통해 DCLUB가 기존 블랙박스 모델 수준의 성능을 유지하면서도 해석 가능한 설계를 달성할 수 있음을 보였다.
Stats
이 비행기는 이륙하고 있다.
비행기의 코가 위를 향하고 있다.
비행기의 꼬리가 아래를 향하고 있다.
비행기 뒤에 많은 활주로가 보인다.
비행기가 지면에서 멀어지고 있다.
Quotes
"최근 다중 모달 대형 언어 모델(LLM)의 발전으로 시각적 질문 답변(VQA) 성능이 크게 향상되었다."
"그러나 이러한 엔드-투-엔드 모델은 내부 계산 과정이 해석 가능하지 않아 신뢰성이 낮고 중요 분야에 적용하기 어렵다는 문제가 있다."
"DCLUB는 기존 블랙박스 모델 수준의 성능을 유지하면서도 해석 가능한 설계를 달성할 수 있음을 보였다."