核心概念
LLM2CLIPは、大規模言語モデル(LLM)のテキスト理解能力とオープンワールド知識を活用し、従来のCLIPモデルの視覚表現学習を大幅に向上させる手法である。
摘要
LLM2CLIP: 大規模言語モデルの能力を活用した、よりリッチな視覚表現の獲得
本稿は、LLM2CLIPと呼ばれる、大規模言語モデル(LLM)を用いて、より強力で、きめ細かく、リッチな視覚表現をCLIPに学習させる新しいアプローチを提案する研究論文の概要です。
本研究は、従来のCLIPモデルが抱える、テキストエンコーダーの限界(限られたモデルサイズ、コンテキスト長、画像キャプションデータへの偏り)を、LLMの能力を活用することで克服することを目的としています。
LLM2CLIPは、以下の3つのステップで構成されています。
LLMのキャプション識別能力の向上: LLMの出力トークンに対して、キャプションの識別能力を高めるためのファインチューニングを行います。具体的には、同一画像の異なるキャプションを正例、それ以外のキャプションを負例として、教師ありSimCSE損失を用いたキャプション対照学習を行います。
LLMをCLIPの教師モデルとして活用: ファインチューニングされたLLMを凍結し、CLIPのビジュアルエンコーダーの教師モデルとして使用します。LLMのオープンワールド知識により、CLIPはより構造化され、グローバルな情報を含む視覚表現を学習することができます。
アダプター層の導入: LLMとCLIPのビジュアルエンコーダーの整合性を向上させるために、LLMの後段に学習可能なアダプター層を導入します。