本論文は、CLIPの未知ドメインへの一般化能力を向上させるための手法を提案している。具体的には以下の3つの主要な貢献がある:
特徴量の多様性を促進するため、インスタンス条件付きの特徴量増強手法を提案した。これにより、画像ごとに異なる言語記述を用いて特徴量を合成することで、より多様な特徴量を生成できる。
合成された特徴量の品質を維持するため、ペアワイズの正則化損失を導入した。これにより、合成された特徴量がCLIPの特徴空間内に留まるようにする。
言語特徴量の摂動を行うことで、言語特徴量と画像特徴量の表現ギャップを縮小し、より効果的な特徴量合成を実現した。
提案手法LDFS は2段階のフレームワークで構成される。第1段階では、言語記述に基づいて訓練データの特徴量を多様な未知ドメイン特徴量に変換する。第2段階では、元の特徴量と合成された特徴量を組み合わせてCLIPをファインチューニングする。
LDFSは、線形プローブやCoOp、CoCoOp、MaPle、PromptSRCなどのCLIPファインチューニング手法の性能を大幅に向上させることが示された。特に、PromptSRCとの組み合わせが最も優れた性能を発揮し、4つのベンチマークデータセットで最高の平均精度を達成した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問