Core Concepts
大規模な事前学習済みのビジョン-言語モデルを蒸留することで、言語で指定された概念軸に沿った視覚概念表現を学習する。
Abstract
本研究の目的は、言語で指定された概念軸に沿って、画像から視覚概念を抽出する表現を学習することです。具体的には以下の3つの特性を持つ視覚概念表現を目指しています。
個別の画像インスタンスに最適化するのではなく、概念軸ごとに共通の視覚概念を表現できること。これにより、概念の組み合わせを自由に変更できるようになります。
言語の概念構造を活用し、概念軸間の分離を促進すること。これにより、特定の概念軸のみを変更できるようになります。
事前学習済みのテキスト-画像生成モデルを蒸留することで、大規模なアノテーションなしに学習できること。
具体的には、概念エンコーダーを複数学習し、各エンコーダーが画像の特定の概念軸(カテゴリ、色、素材など)の情報を抽出するようにします。これらの抽出された概念表現は、事前学習済みのテキスト-画像生成モデルを用いて画像を再現する目的で最適化されます。さらに、事前学習済みの視覚質問応答モデルの回答を概念表現の アンカーとして使うことで、概念軸間の分離を促進します。
学習後は、テストイメージから各概念軸の表現を抽出し、それらを自由に組み合わせることで、新しい概念の組み合わせの画像を生成できます。また、テスト時のファインチューニングにより、訓練時に見ていない新しい概念にも対応できます。
Stats
画像の色や素材などの視覚的特徴を表す数値データを用いて、概念表現を学習する。
事前学習済みの視覚質問応答モデルの回答を、概念表現のアンカーとして利用する。
Quotes
"大規模な事前学習済みのビジョン-言語モデルを蒸留することで、言語で指定された概念軸に沿った視覚概念表現を学習する。"
"概念エンコーダーを複数学習し、各エンコーダーが画像の特定の概念軸(カテゴリ、色、素材など)の情報を抽出するようにする。"
"事前学習済みの視覚質問応答モデルの回答を概念表現のアンカーとして使うことで、概念軸間の分離を促進する。"