核心概念
CLIPの潜在空間は、原点を中心としない、テキストと画像のそれぞれに対応する分離した楕円体シェルで構成されており、この構造は、対照学習における不確実性と密接に関係しており、頻繁に出現する概念ほど平均ベクトルに近くなるように埋め込まれることで、より正確な表現学習が可能になる。
要約
CLIPにおける二重楕円体構造の解析:論文要約
本稿では、Meir Yossef Levi氏とGuy Gilboa氏による論文「The Double-Ellipsoid Geometry of CLIP」を要約し、その主要な貢献を解説します。
近年、Contrastive Language-Image Pre-Training (CLIP) をはじめとするマルチモーダル学習がコンピュータビジョンの分野で注目を集めています。CLIPは、画像とテキストを共通の埋め込み空間に配置することで、従来困難であった多くのタスクを可能にしています。しかし、CLIPの潜在空間の構造については、まだ十分に解明されていません。
本研究では、正規化前の生のCLIP埋め込み空間を調査し、その幾何学的構造を明らかにすることを目的としました。
二重楕円体構造: CLIPの潜在空間は、原点を中心としない、テキストと画像のそれぞれに対応する分離した楕円体シェルで構成されています。
不確実性と埋め込み位置の関係: 楕円体構造により、対照学習における不確実性を制御することができます。頻繁に出現する概念は、バッチ内で誤ったネガティブサンプルとなる可能性が高いため、不確実性が高くなります。CLIPは、このような不確実性の高い概念を平均ベクトルに近づけることで、「意味的ぼかし」を実現し、全体的な損失を低減しています。
適合性の概念: 本論文では、「適合性」と呼ばれる新しい概念を導入し、概念の頻度を定量化しています。適合性は、埋め込み空間における平均ベクトルとのコサイン類似度と高い相関を示すことが明らかになりました。
モダリティギャップの理由: テキストと画像の適合性の分布は異なっており、CLIPの現在の楕円体の位置で最適に一致することがわかりました。これは、モダリティギャップの存在を説明する要因の一つと考えられます。