본 논문은 CLIP 모델의 주요 한계인 텍스트 입력 길이 제한 문제를 해결하기 위해 Long-CLIP을 제안한다. Long-CLIP은 CLIP 모델을 효율적으로 fine-tuning하여 장문 텍스트 입력을 지원하면서도 CLIP의 제로샷 일반화 능력을 유지하거나 향상시킨다.
구체적으로 Long-CLIP은 다음과 같은 두 가지 핵심 전략을 도입한다:
실험 결과, Long-CLIP은 CLIP 대비 장문 텍스트 기반 이미지-텍스트 검색에서 약 20% 향상된 성능을 보였으며, 기존 단문 텍스트 검색 성능도 약 6% 개선되었다. 또한 CLIP의 제로샷 분류 성능도 유지하였다. 더불어 Long-CLIP은 CLIP의 텍스트 인코더를 플러그 앤 플레이 방식으로 대체할 수 있어, 기존 텍스트 기반 이미지 생성 모델의 장문 텍스트 처리 능력을 향상시킬 수 있다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Beichen Zhan... kl. arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15378.pdfDybere Forespørgsler