画像分類とセマンティックセグメンテーションにおける語彙フリーアプローチ
大規模なビジョン・言語モデルは画像分類とセマンティックセグメンテーションのパラダイムを革新したが、テスト時に事前定義された一連のカテゴリーまたは語彙を前提としている。この前提は、未知または進化する意味的コンテキストのシナリオでは実用的ではない。ここでは、この問題に取り組み、事前定義された語彙を必要とせずに入力画像に言語誘導意味空間からクラスを割り当てる「語彙フリー画像分類」(VIC)タスクを紹介する。VICに対処するために、事前学習済みのビジョン・言語モデルと外部データベースを活用する「外部データベースからのカテゴリ検索」(CaSED)という訓練不要の手法を提案する。さらに、CaSEDをセマンティックセグメンテーションに適用し、「語彙フリーセマンティックセグメンテーション」(VSS)タスクを紹介する。