本論文では、大規模言語モデル(LLM)を視覚的な識別タスクに適応させる手法「CLAMP」を提案している。
まず、従来の多モーダルLLMは視覚的な識別タスクでは低い性能しか発揮できないことを示した。これは、LLMが生成タスクのために訓練されているためだと考えられる。
そこで、CLAMPでは、LLMの一部のパラメータを、視覚-言語の対比学習(contrastive learning)によって微調整することで、視覚的な識別能力を向上させている。具体的には、LLMの出力表現にアテンションプーリングを適用し、読み取り専用のプロンプトを追加することで、視覚表現との整合性を高めている。さらに、LoRAによる軽量な微調整も行っている。
この結果、CLAMPは従来の多モーダルLLMよりも13%高い性能を達成し、同等の視覚的識別能力を持つCLIPモデルにも迫る性能を示した。特に、訓練データに含まれていないドメインでの性能が良いことが特徴的である。
また、CLAMPは生成能力も保持しており、多様な自然言語処理タスクでも高い性能を発揮することを確認している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問