المفاهيم الأساسية
CLIPベースのモデルにおける単一タグバイアスを特定し、テキストタグの自己蒸留を通じてこのバイアスを緩和することで、画像テキスト整合性を大幅に向上させる。
الملخص
本研究では、CLIP ベースのモデルに存在する単一タグバイアスを特定した。このバイアスは、CLIPのテキストエンコーダーが特定のタグ(単語)に過度に集中し、他の関連するタグを無視する傾向があることに起因する。
提案手法は2段階のファインチューニングアプローチを採用する。
- ピクセルとタグの類似性を利用したタグ選択: 各ピクセルと最も相関の高いタグを抽出することで、単一タグバイアスの影響を最小限に抑える。
- テキストタグの自己蒸留: 抽出したタグのマスクと、テキストから得られるマスクの整合性を高めることで、画像テキスト間の整合性を向上させる。
この手法により、追加のデータやアノテーションを必要とせずに、マルチタグ分類やセグメンテーションタスクの性能を大幅に向上させることができた。また、テキストに関連するタグとそのマスクのアノテーションも提供する。
الإحصائيات
画像とテキストの類似度が高いタグは、画像内の対応するピクセル領域も高い類似度を示す。
単一タグバイアスのあるモデルでは、画像とテキストの類似度が高いのは1つのタグのみで、他のタグは無視される。
提案手法では、各タグとその最も関連するピクセルの類似度を用いることで、単一タグバイアスの影響を最小限に抑えられる。
اقتباسات
"CLIPベースのモデルは、画像とテキストの関係において単一タグバイアスを示す傾向がある。"
"提案手法では、ピクセルとタグの類似性を利用したタグ選択と、テキストタグの自己蒸留を通じて、単一タグバイアスを緩和し、画像テキスト整合性を大幅に向上させる。"
"追加のデータやアノテーションを必要とせずに、マルチタグ分類やセグメンテーションタスクの性能を向上させることができた。"