핵심 개념
Long-CLIP은 CLIP의 장문 텍스트 입력 기능을 향상시켜 장문 텍스트 기반 이미지-텍스트 검색 성능을 크게 개선하고, 텍스트 기반 이미지 생성 능력을 확장한다.
초록
본 논문은 CLIP 모델의 주요 한계인 텍스트 입력 길이 제한 문제를 해결하기 위해 Long-CLIP을 제안한다. Long-CLIP은 CLIP 모델을 효율적으로 fine-tuning하여 장문 텍스트 입력을 지원하면서도 CLIP의 제로샷 일반화 능력을 유지하거나 향상시킨다.
구체적으로 Long-CLIP은 다음과 같은 두 가지 핵심 전략을 도입한다:
- 지식 보존 포지셔널 임베딩 확장: CLIP의 포지셔널 임베딩을 효과적으로 확장하여 최대 248 토큰까지 입력 길이를 늘리면서도 기존 포지셔널 임베딩의 학습된 지식을 최대한 보존한다.
- 주요 성분 매칭: 이미지 특징과 장문 텍스트를 정렬할 때 이미지의 주요 성분과 요약 텍스트도 함께 정렬하여, 모델이 이미지의 세부 속성과 중요도를 모두 학습할 수 있도록 한다.
실험 결과, Long-CLIP은 CLIP 대비 장문 텍스트 기반 이미지-텍스트 검색에서 약 20% 향상된 성능을 보였으며, 기존 단문 텍스트 검색 성능도 약 6% 개선되었다. 또한 CLIP의 제로샷 분류 성능도 유지하였다. 더불어 Long-CLIP은 CLIP의 텍스트 인코더를 플러그 앤 플레이 방식으로 대체할 수 있어, 기존 텍스트 기반 이미지 생성 모델의 장문 텍스트 처리 능력을 향상시킬 수 있다.
통계
CLIP의 실제 효과적 입력 길이는 약 20 토큰에 불과하다.
Long-CLIP은 CLIP 대비 장문 텍스트 기반 이미지-텍스트 검색에서 약 20% 향상된 성능을 보였다.
Long-CLIP은 CLIP 대비 단문 텍스트 기반 이미지-텍스트 검색에서 약 6% 향상된 성능을 보였다.
인용구
"CLIP의 텍스트 인코더는 77 토큰으로 제한된 절대 포지셔널 임베딩을 사용하여 입력 토큰 수에 엄격한 상한선을 설정한다."
"CLIP의 훈련 데이터셋은 주로 간단한 텍스트로 구성되어 있어, 텍스트 인코더의 높은 토큰 위치에 대한 포지셔널 임베딩이 충분히 학습되지 않아 실제 효과적 길이가 더 짧아진다."