Основные понятия
本研究は、CLIP教師モデルから知識を蒸留し、ネガティブサンプルの多様性を考慮したマルチモーダル文章埋め込み学習手法を提案する。
Аннотация
本研究は、マルチモーダル文章埋め込み学習の課題に取り組んでいる。従来の手法では、ランダムにサンプリングされたネガティブサンプルに雑音が含まれ、学習に悪影響を及ぼしていた。
本研究では以下の2つの提案を行う:
- 知識蒸留型マルチモーダル学習(KDMCSE)
- CLIP教師モデルから知識を蒸留し、文章と画像の表現を整合的に学習する
- ネガティブサンプルの類似度に基づいてしきい値フィルタリングを行い、雑音を除去する
- アダプティブ角度マージン対比学習(AdapACSE)
- ネガティブサンプル間の多様性を考慮し、角度マージンを動的に調整することで、より弁別的な文章表現を学習する
提案手法をSTS ベンチマークで評価した結果、従来手法を上回る性能を示した。特に、ネガティブサンプルの質を高めることで、文章表現の弁別性が向上したことが確認された。
Статистика
文章と画像の類似度が0.85以上のペアは雑音が多く、除外することが重要である
文章と画像の類似度が0.8付近のペアが最も多く、有用な情報を含んでいる
Цитаты
"従来の手法では、ランダムにサンプリングされたネガティブサンプルに雑音が含まれ、学習に悪影響を及ぼしていた。"
"ネガティブサンプル間の多様性を考慮し、角度マージンを動的に調整することで、より弁別的な文章表現を学習できる。"