이 논문은 문서 내 그림과 텍스트 간 연결을 위한 새로운 대비 학습 프레임워크인 DocumentCLIP을 제안한다. 기존 비전-언어 사전 학습 모델은 단일 이미지와 단일 텍스트 간 정렬에 초점을 맞추었지만, DocumentCLIP은 문서 내 다중 문장과 다중 이미지 간 상호작용을 이해하는 것을 목표로 한다.
주요 내용은 다음과 같다:
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Fuxiao Liu,H... lúc arxiv.org 04-29-2024
https://arxiv.org/pdf/2306.06306.pdfYêu cầu sâu hơn