본 연구는 기존 시각-언어 모델의 한계를 극복하기 위해 자기 질문 기법을 제안한다. 기존 모델들은 주로 질문-답변 과제에 초점을 맞추었지만, 질문에 포함된 풍부한 시각 정보를 충분히 활용하지 못했다.
제안하는 SQ-LLaVA 모델은 자기 질문 과제를 추가로 학습한다. 구체적으로 SQ-LLaVA는 이미지와 관련된 질문을 스스로 생성하고 답변하는 방식으로 학습한다. 이를 통해 모델이 이미지 내 정보를 효과적으로 활용하고 다양한 질문을 생성할 수 있게 된다.
또한 SQ-LLaVA는 프로토타입 추출기를 통해 시각 표현을 개선하고, LoRA 기법을 활용하여 효율적으로 시각-언어 도메인을 정렬한다.
실험 결과, SQ-LLaVA는 기존 모델 대비 9개 중 9개 벤치마크에서 우수한 성능을 보였다. 이는 자기 질문 기법이 전반적인 시각-언어 이해 능력 향상에 효과적임을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询