이 논문은 문서 내 그림과 텍스트 간 연결을 위한 새로운 대비 학습 프레임워크인 DocumentCLIP을 제안한다. 기존 비전-언어 사전 학습 모델은 단일 이미지와 단일 텍스트 간 정렬에 초점을 맞추었지만, DocumentCLIP은 문서 내 다중 문장과 다중 이미지 간 상호작용을 이해하는 것을 목표로 한다.
주요 내용은 다음과 같다:
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Fuxiao Liu,H... às arxiv.org 04-29-2024
https://arxiv.org/pdf/2306.06306.pdfPerguntas Mais Profundas