본 연구는 기존 시각 지시 학습 방식의 한계를 극복하기 위해 자기 질문 기법을 제안한다. 기존 방식은 이미지와 텍스트 간 질문-답변 쌍을 활용하여 모델을 학습시키지만, 이미지에 담긴 풍부한 맥락 정보를 충분히 활용하지 못한다는 문제가 있다.
제안하는 SQ-LLaVA 모델은 자기 질문 학습을 통해 이미지와 질문 간의 관계를 더 잘 학습할 수 있다. 구체적으로 SQ-LLaVA는 이미지 토큰 클러스터링을 통해 시각 표현을 강화하고, 언어 모델과 비전 인코더를 효율적으로 정렬하는 LoRA 기법을 활용한다. 또한 기존 질문-답변 학습 외에 자기 질문 학습을 추가하여 모델이 이미지에 대해 다양하고 의미 있는 질문을 생성할 수 있도록 한다.
실험 결과, SQ-LLaVA는 기존 시각 지시 학습 모델 대비 9개 중 9개 벤치마크에서 성능이 향상되었다. 또한 정성적 평가에서도 SQ-LLaVA가 생성한 질문이 기존 모델보다 더 다양하고 관련성 높은 것을 확인할 수 있었다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問