본 연구는 기존 비전-언어 모델의 한계를 극복하기 위해 자기 질문 학습 기법을 제안한다. 기존 비전-언어 모델은 주로 질문-답변 학습에 초점을 맞추었지만, 질문 자체에 담긴 풍부한 시각적 정보를 충분히 활용하지 못했다.
이에 본 연구는 자기 질문 학습을 통해 모델이 이미지 내 정보를 효과적으로 활용하여 다양하고 의미 있는 질문을 생성할 수 있게 한다. 구체적으로 모델은 주어진 이미지에 대해 자발적으로 질문을 생성하는 훈련을 받게 되며, 이를 통해 비전-언어 이해 능력이 향상된다.
또한 본 연구는 프로토타입 추출기를 통해 시각 표현을 강화하고, LoRA 기법을 활용하여 효율적으로 비전-언어 도메인을 정렬한다. 이를 통해 기존 방법 대비 우수한 성능을 달성한다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Guohao Sun,C... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11299.pdfYêu cầu sâu hơn