본 연구는 기존 비전-언어 모델의 한계를 극복하기 위해 자기 질문 학습 기법을 제안한다. 기존 비전-언어 모델은 주로 질문-답변 학습에 초점을 맞추었지만, 질문 자체에 담긴 풍부한 시각적 정보를 충분히 활용하지 못했다.
이에 본 연구는 자기 질문 학습을 통해 모델이 이미지 내 정보를 효과적으로 활용하여 다양하고 의미 있는 질문을 생성할 수 있게 한다. 구체적으로 모델은 주어진 이미지에 대해 자발적으로 질문을 생성하는 훈련을 받게 되며, 이를 통해 비전-언어 이해 능력이 향상된다.
또한 본 연구는 프로토타입 추출기를 통해 시각 표현을 강화하고, LoRA 기법을 활용하여 효율적으로 비전-언어 도메인을 정렬한다. 이를 통해 기존 방법 대비 우수한 성능을 달성한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Guohao Sun,C... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11299.pdfDomande più approfondite