核心概念
反復学習を用いることで、大規模な視覚言語モデルの合成性を向上させることができる。
要約
本論文は、大規模な視覚言語モデルの合成性を向上させる新しい手法を提案している。
まず、視覚言語モデルの学習過程を、2つのエージェント(視覚エージェントと言語エージェント)が協力して「ルイス信号ゲーム」を行うプロセスとして捉え直す。次に、両エージェントが共有する符号化器(コードブック)を導入し、言語エージェントを定期的に入れ替える「反復学習」のアルゴリズムを提案する。
この反復学習アルゴリズムにより、視覚エージェントは「学習しやすい」表現を学習するようになる。つまり、合成的な表現が獲得されるのである。実験の結果、提案手法は既存の手法よりも合成性が高く、かつ認識性能も維持できることが示された。
具体的には以下のような知見が得られた:
- 反復学習を行うことで、新しい言語エージェントが既存の視覚表現を効率的に学習できるようになる
- 反復学習を通じて、表現の滑らかさが向上し、リプシッツ定数の上限が低下する
- 学習されたコードブックには、人間にも解釈可能な概念が含まれている
統計
提案手法(IL-CLIP)は、標準のCLIPと比べて、SugarCrepeベンチマークで4.7%、CREPE-CC12Mベンチマークで4.0%の性能向上を達成した。
IL-CLIPは、NegCLIPよりも多くのベンチマークで優れた性能を示した。
IL-CLIPは、標準のCLIPと同等の画像認識性能を維持しつつ、合成性を向上させることができた。
引用
"A fundamental characteristic common to both human vision and natural language is their compositional nature."
"Yet, despite the performance gains contributed by large vi-sion and language pretraining, recent investigations find that most—if not all—our state-of-the-art vision-language models struggle at compositionality."
"Cognitive Scientists have spent the last two decades studying the emergence of compositionality in hu-man language. The results seem to indicate that the primary inductive prior that leads to language compositionality is cul-tural transmission: a phenomenon where an older generation transmits their language to a new generation."