Core Concepts
画像表現を言語でデバイスし、サブポピュレーションシフトに対処する方法を提案
Abstract
この記事は、画像と自然言語モデルCLIPにおけるサブポピュレーションシフトに焦点を当てています。提案されたL-DROは、画像表現をデバイスし、テスト中にサブポピュレーションシフトが存在する場合に性能向上を実現します。
ABSTRACT
サブポピュレーションシフトはアルゴリズム的な偏りの重要な原因であり、分布の堅牢性が求められる。
CLIPの分布的な堅牢性はパラメータ微調整によって脆弱性が生じることが示唆されている。
自然言語入力を活用して画像表現のデバイス化を提案し、サブポピュレーション内での最悪ケースパフォーマンス向上を実証。
INTRODUCTION
トレーニングデータと推論段階のデータ間のドメインシフトは一般的であり、モデルの堅牢性が重要。
サブポピュレーションシフトは特定の人口集団内でのデータ分布変化を指し、アルゴリズム的な偏りの重要な原因となる。
RELATED WORK
ビジョン・ランゲージ基盤モデルの分布的な堅牢性に関心が高まっており、従来型のファインチューニング手法では堅牢性問題が発生している。
BACKGROUND
L-DROはエントロピーと一貫性項を導入し、両モダリティ間で協力関係を促進することに焦点を当てている。
EXPERIMENTS
L-DROはゼロショット学習よりも最悪ケースパフォーマンスが改善されており、平均パフォーマンスも向上している。
異なるネットワークアーキテクチャでもL-DROは他の手法よりも優れた結果を示している。
CONCLUSION
L-DROは画像表現をデバイスし、サブポピュレーションシフト下でより良いパフォーマンスを達成する可能性があることが示された。
Stats
"Sub-population shift is a specific type of domain shift."
"Recent studies found inherent distributional robustness in multi-modality foundation models."