Główne pojęcia
이미지와 텍스트 간 개념 불일치를 식별하고 수정하는 이미지 기반 캡션 수정 학습 방법을 제안하여, 추가적인 레이블링 없이도 비전-언어 모델의 제로샷 추론 성능을 향상시킬 수 있다.
Streszczenie
이 연구는 비전-언어 모델(VLM)의 제로샷 추론 성능을 향상시키기 위한 새로운 사전 학습 방법을 소개한다. 기존 연구에서는 추가적인 레이블링된 데이터가 필요했지만, 본 연구에서는 이미지-텍스트 데이터만을 활용하여 이미지와 텍스트 간 개념 불일치를 식별하고 수정하는 이미지 기반 캡션 수정(ICCC) 학습 방법을 제안한다.
ICCC 학습 방법은 다음과 같은 과정으로 진행된다:
- 언어 구조 분석을 통해 개념 단위(entity, predicate, attribute 등)를 추출한다.
- 추출된 개념 단위를 활용하여 이미지-텍스트 쌍에서 개념 불일치를 인위적으로 생성한다.
- 생성된 개념 불일치 샘플을 활용하여 VLM을 학습시킨다.
이를 통해 VLM은 이미지와 텍스트 간 개념 정렬 능력을 향상시킬 수 있으며, 결과적으로 다양한 제로샷 비전-언어 추론 과제에서 성능 향상을 달성할 수 있다. 실험 결과, ICCC 학습 방법은 기존 방법 대비 VQA, 이미지 캡셔닝 등의 과제에서 유의미한 성능 향상을 보였다.
Statystyki
이미지-텍스트 데이터셋에서 추출한 개념 단위를 활용하여 인위적으로 생성한 개념 불일치 샘플을 사용하여 VLM을 학습시킴
개념 단위 중 명사, 동사, 속성 등 다양한 유형의 개념을 활용하여 학습 데이터를 구성함
개념 단위를 대체하거나 순서를 바꾸는 등의 방식으로 개념 불일치 샘플을 생성함
Cytaty
"이미지와 텍스트 간 개념 불일치를 식별하고 수정하는 이미지 기반 캡션 수정(ICCC) 학습 방법을 제안하여, 추가적인 레이블링 없이도 비전-언어 모델의 제로샷 추론 성능을 향상시킬 수 있다."
"ICCC 학습 방법은 언어 구조 분석을 통해 다양한 개념 단위를 추출하고, 이를 활용하여 개념 불일치 샘플을 자동으로 생성한다."
"실험 결과, ICCC 학습 방법은 기존 방법 대비 VQA, 이미지 캡셔닝 등의 과제에서 유의미한 성능 향상을 보였다."