Concepts de base
DocumentCLIP은 문서 내 그림과 텍스트 간 상호작용을 이해하고 연결하는 새로운 대비 학습 프레임워크이다.
Résumé
이 논문은 문서 내 그림과 텍스트 간 연결을 위한 새로운 대비 학습 프레임워크인 DocumentCLIP을 제안한다. 기존 비전-언어 사전 학습 모델은 단일 이미지와 단일 텍스트 간 정렬에 초점을 맞추었지만, DocumentCLIP은 문서 내 다중 문장과 다중 이미지 간 상호작용을 이해하는 것을 목표로 한다.
주요 내용은 다음과 같다:
- 문서 내 그림과 텍스트 간 연결을 위한 새로운 대비 학습 프레임워크 DocumentCLIP 제안
- 문서 구조 정보와 다중 모달 상호작용을 학습하는 방법 제안
- 중요 문장 추출 전략과 어려운 부정 샘플 생성을 통해 미묘한 차이를 구별하는 능력 향상
- 다양한 주제와 구조를 가진 대규모 위키피디아 데이터셋 구축
- 감독 학습과 제로 샷 설정에서 기존 방법 대비 우수한 성능 달성
Stats
문서 내 평균 문장 수는 195.5개로, 기존 데이터셋에 비해 매우 길다.
문서 내 평균 이미지 수는 4.8개로, 다수의 이미지가 포함되어 있다.
Citations
"실제 세계의 뉴스 기사, 위키피디아 페이지, 잡지, 제품 설명과 같은 미디어는 다중 문장과 다중 이미지로 구성되어 있다."
"문서 내부 연결을 식별하는 알고리즘은 장기적으로 유용할 수 있다. 예를 들어 시각 장애인 사용자를 위한 대체 텍스트를 자동으로 생성할 수 있다."