Core Concepts
大規模言語モデルを視覚的な識別タスクに適応させる手法「CLAMP」を提案し、従来の多モーダル大規模言語モデルよりも高い性能を実現した。
Abstract
本論文では、大規模言語モデル(LLM)を視覚的な識別タスクに適応させる手法「CLAMP」を提案している。
まず、従来の多モーダルLLMは視覚的な識別タスクでは低い性能しか発揮できないことを示した。これは、LLMが生成タスクのために訓練されているためだと考えられる。
そこで、CLAMPでは、LLMの一部のパラメータを、視覚-言語の対比学習(contrastive learning)によって微調整することで、視覚的な識別能力を向上させている。具体的には、LLMの出力表現にアテンションプーリングを適用し、読み取り専用のプロンプトを追加することで、視覚表現との整合性を高めている。さらに、LoRAによる軽量な微調整も行っている。
この結果、CLAMPは従来の多モーダルLLMよりも13%高い性能を達成し、同等の視覚的識別能力を持つCLIPモデルにも迫る性能を示した。特に、訓練データに含まれていないドメインでの性能が良いことが特徴的である。
また、CLAMPは生成能力も保持しており、多様な自然言語処理タスクでも高い性能を発揮することを確認している。
Stats
大規模言語モデルは視覚的な識別タスクでは低い性能しか発揮できない。
CLAMPは従来の多モーダルLLMよりも13%高い視覚的識別性能を達成した。
CLAMPは訓練データに含まれていないドメインでも高い性能を発揮する。
CLAMPは生成能力も保持しており、多様な自然言語処理タスクでも高い性能を発揮する。