Core Concepts
事前学習された視覚言語モデルは、画像の視覚的特徴を表す概念を自動的に学習することができる。
Abstract
本論文は、事前学習された視覚言語モデルが、画像の視覚的特徴を表す概念を自動的に学習できるかどうかを調査している。
まず、従来の手法では、テキストプロンプトに含まれるカテゴリ名のバイアスにより、正しい視覚概念が抽出されていないことを示す。
そこで、著者らは新しい概念発見と学習(CDL)フレームワークを提案する。CDLでは、大規模な画像キャプション データから、カテゴリ非依存で視覚的に判別可能な概念を発見する。さらに、発見した概念を活用して、事前学習モデルの最終層を微調整することで、概念の認識精度を向上させる。
著者らは、定量的および人間評価を通じて、CDLにより発見された概念が正確かつ網羅的であることを示す。また、発見された概念を用いた物体認識タスクでも、従来手法を上回る性能を達成する。
以上より、事前学習された視覚言語モデルは、画像の視覚的特徴を表す概念を自動的に学習できることが明らかになった。
Stats
事前学習された視覚言語モデルは、画像の視覚的特徴を表す概念を自動的に学習できる。
従来の手法では、テキストプロンプトに含まれるカテゴリ名のバイアスにより、正しい視覚概念が抽出されていない。
提案手法のCDLは、カテゴリ非依存で視覚的に判別可能な概念を発見し、事前学習モデルの性能を向上させることができる。
Quotes
事前学習された視覚言語モデルは、画像の視覚的特徴を表す概念を自動的に学習できる。
CDLは、カテゴリ非依存で視覚的に判別可能な概念を発見し、事前学習モデルの性能を向上させることができる。