본 연구는 기존 시각-언어 모델의 한계를 극복하기 위해 자기 질문 기법을 제안한다. 기존 모델들은 주로 질문-답변 과제에 초점을 맞추었지만, 질문에 포함된 풍부한 시각 정보를 충분히 활용하지 못했다.
제안하는 SQ-LLaVA 모델은 질문-답변 과제와 더불어 자기 질문 과제를 학습한다. 이를 통해 모델이 이미지 내 정보를 효과적으로 활용하고 다양한 질문을 생성할 수 있게 된다. 또한 프로토타입 추출기를 통해 시각 표현을 개선하고, LoRA 기법을 활용하여 효율적으로 시각-언어 도메인을 정렬한다.
실험 결과, SQ-LLaVA는 기존 모델 대비 9개 중 9개 벤치마크에서 우수한 성능을 보였다. 이는 자기 질문 기법이 전반적인 시각-언어 이해 능력 향상에 효과적임을 보여준다. 또한 질적 평가를 통해 SQ-LLaVA가 다양하고 의미 있는 질문을 생성할 수 있음을 확인했다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies