核心概念
ラベル付きデータのバイアス問題に対処しながら、既知と未知のカテゴリの両方のラベルなし画像を効果的にクラスタリングするために、Vision-Languageモデルとグラフ畳み込みネットワークを活用した新しい一般化カテゴリ発見(GCD)フレームワークであるGraphVLを提案する。
要約
GraphVL: Vision-Languageモデルを用いたグラフ強化セマンティックモデリングによる汎用クラス発見のためのGraphVL
この論文は、一般化カテゴリ発見(GCD)問題に対する新しいアプローチであるGraphVLを提案する研究論文である。
本研究の目的は、ラベル付きデータのバイアスの影響を受けずに、既知と未知のカテゴリの両方が含まれるラベルなし画像を効果的にクラスタリングする手法を開発することである。
GraphVLは、Vision-Languageモデル(VLM)、特にCLIPと、グラフ畳み込みネットワーク(GCN)を組み合わせたアーキテクチャを採用している。
CLIPの事前学習済みビジョンエンコーダとテキストエンコーダを使用して、画像とテキストの両方の埋め込みを生成する。
学習可能なGCNモジュールを導入し、CLIPのテキストエンコーダの上に構築することで、クラスの近傍構造を保持する。
バイアスを軽減し、識別力を高めるために、非セマンティック空間と視覚セマンティックマッピングの両方において、一対のメトリック損失を用いてモデルを最適化する。
ラベルなしデータのクラスタリングには、識別的なセマンティック類似度分布を特徴量として使用した半教師ありk-meansアルゴリズムを採用する。