Core Concepts
大規模なビジョン・言語モデルは画像分類とセマンティックセグメンテーションのパラダイムを革新したが、テスト時に事前定義された一連のカテゴリーまたは語彙を前提としている。この前提は、未知または進化する意味的コンテキストのシナリオでは実用的ではない。ここでは、この問題に取り組み、事前定義された語彙を必要とせずに入力画像に言語誘導意味空間からクラスを割り当てる「語彙フリー画像分類」(VIC)タスクを紹介する。VICに対処するために、事前学習済みのビジョン・言語モデルと外部データベースを活用する「外部データベースからのカテゴリ検索」(CaSED)という訓練不要の手法を提案する。さらに、CaSEDをセマンティックセグメンテーションに適用し、「語彙フリーセマンティックセグメンテーション」(VSS)タスクを紹介する。
Abstract
本論文では、事前定義された語彙を必要としない画像分類(VIC)とセマンティックセグメンテーション(VSS)のタスクを提案している。
VICでは、入力画像に対して事前定義された一連のカテゴリーではなく、言語誘導の意味空間全体から適切なクラスを割り当てることが目標である。これは実用的な利点が多いが、膨大な意味空間を扱う必要があり、微細な差異を区別することが困難な細粒度のカテゴリーが含まれるなど、様々な課題がある。
提案手法のCaSEDは、事前学習済みのビジョン・言語モデル(CLIP)と大規模な視覚言語データベース(PMD)を活用する。入力画像に最も関連する説明文を検索し、その中から候補クラスを抽出する。次に、視覚的類似性と言語的類似性の両方を考慮して、最適なクラスを選択する。
VSSでは、事前定義された語彙なしでセマンティックセグメンテーションを行うことが目標である。CaSEDをVSSに適用するために、3つの戦略を提案している。1つ目は、クラスに依存しないセグメンテーションモデルを使ってマスクを抽出し、CaSEDでラベル付けする。2つ目は、CaSEDで候補クラスを生成し、それをオープンボキャブラリーセグメンテーションモデルに入力する。3つ目のDenseCaSEDは、VLMを直接活用し、マルチスケールのパッチ表現を生成し、局所的にCaSEDを適用する。
実験の結果、CaSEDとその拡張手法であるUpperCaSEDが、VICとVSSの両方のタスクで優れた性能を示すことが分かった。特に、より複雑なビジョン・言語モデルよりも少ないパラメータで高い精度を達成している。
Stats
画像分類タスクでは、CaSEDがBLIP-2 (ViT-g) VQAモデルを+4.4%のクラスタリング精度と+1.7%のセマンティックIoUで上回った。
セマンティックセグメンテーションタスクでは、SAN+CaSEDが最も高い性能を示し、PascalVOC-20データセットでNJIが20.8、SRが61.8を達成した。
Quotes
"大規模なビジョン・言語モデルは画像分類とセマンティックセグメンテーションのパラダイムを革新したが、テスト時に事前定義された一連のカテゴリーまたは語彙を前提としている。"
"ここでは、この問題に取り組み、事前定義された語彙を必要とせずに入力画像に言語誘導意味空間からクラスを割り当てる「語彙フリー画像分類」(VIC)タスクを紹介する。"
"VICに対処するために、事前学習済みのビジョン・言語モデルと外部データベースを活用する「外部データベースからのカテゴリ検索」(CaSED)という訓練不要の手法を提案する。"