이 연구는 비전-언어 모델(VLM)의 제로샷 추론 성능을 향상시키기 위한 새로운 사전 학습 방법을 소개한다. 기존 연구에서는 추가적인 레이블링된 데이터가 필요했지만, 본 연구에서는 이미지-텍스트 데이터만을 활용하여 이미지와 텍스트 간 개념 불일치를 식별하고 수정하는 이미지 기반 캡션 수정(ICCC) 학습 방법을 제안한다.
ICCC 학습 방법은 다음과 같은 과정으로 진행된다:
이를 통해 VLM은 이미지와 텍스트 간 개념 정렬 능력을 향상시킬 수 있으며, 결과적으로 다양한 제로샷 비전-언어 추론 과제에서 성능 향상을 달성할 수 있다. 실험 결과, ICCC 학습 방법은 기존 방법 대비 VQA, 이미지 캡셔닝 등의 과제에서 유의미한 성능 향상을 보였다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Rongjie Li,Y... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00909.pdfTiefere Fragen