本論文は、Contrastive Language-Image Pre-training (CLIP)モデルの長文入力機能の制限を解決するための手法「Long-CLIP」を提案している。
CLIP モデルは、画像と言語の相互関係を学習することで、ゼロショット分類、テキスト-画像検索、テキスト-画像生成などの様々なタスクで優れた性能を発揮してきた。しかし、CLIP の言語エンコーダーは入力テキストの長さを77トークンに制限しており、詳細な説明文を処理することができない。これにより、画像検索やテキスト-画像生成などの応用において制限が生じていた。
本論文では、以下の2つの手法を提案することで、この問題を解決している:
知識保持型の位置エンコーディングの伸長: CLIP の位置エンコーディングは短文に偏って学習されているため、単純な補間では性能が大幅に低下する。そこで、最初の20位置の位置エンコーディングは維持し、残りの位置のみ大幅に補間する手法を提案している。これにより、短文入力時の性能を維持しつつ、長文入力にも対応できるようになる。
主要成分マッチング: 長文入力時に画像特徴量と詳細なテキスト特徴量を整列させるだけでなく、画像の主要な特徴と短文テキスト特徴量も整列させる。これにより、画像の重要な属性を捉えつつ、詳細な属性も表現できるようになる。
これらの手法により、Long-CLIP は従来のCLIPと比べて、長文テキスト-画像検索タスクで約20%、短文テキスト-画像検索タスクで約6%の性能向上を達成している。また、ゼロショット分類の性能も維持できている。さらに、Long-CLIP はCLIPのテキストエンコーダーを置き換えるだけで、テキスト-画像生成モデルにも適用可能である。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Beichen Zhan... في arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15378.pdfاستفسارات أعمق