이 연구는 비전-언어 모델(VLM)의 제로샷 추론 성능을 향상시키기 위한 새로운 사전 학습 방법을 소개한다. 기존 연구에서는 추가적인 레이블링된 데이터가 필요했지만, 본 연구에서는 이미지-텍스트 데이터만을 활용하여 이미지와 텍스트 간 개념 불일치를 식별하고 수정하는 이미지 기반 캡션 수정(ICCC) 학습 방법을 제안한다.
ICCC 학습 방법은 다음과 같은 과정으로 진행된다:
이를 통해 VLM은 이미지와 텍스트 간 개념 정렬 능력을 향상시킬 수 있으며, 결과적으로 다양한 제로샷 비전-언어 추론 과제에서 성능 향상을 달성할 수 있다. 실험 결과, ICCC 학습 방법은 기존 방법 대비 VQA, 이미지 캡셔닝 등의 과제에서 유의미한 성능 향상을 보였다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Rongjie Li,Y... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00909.pdfГлибші Запити