Core Concepts
マルチラベル認識の性能を向上させるために、クラス間の共起確率情報を活用する。
Abstract
本研究では、マルチラベル認識(MLR)の性能を向上させるための新しい手法を提案している。MLRは、画像に含まれる複数のオブジェクトを同時に認識する課題であり、従来の手法では各クラスの分類器を独立に学習していた。しかし、実際のデータでは、ある特定のクラスが共起する傾向があるため、このような相関情報を活用することで性能を向上できると考えられる。
提案手法では、まず、ビジョン・ランゲージモデル(VLM)を用いて各クラスの初期的な予測ロジットを得る。次に、トレーニングデータから算出したクラス間の条件付き確率を、グラフ畳み込みネットワーク(GCN)を用いて、この初期ロジットを精緻化する。これにより、クラス間の相関情報を活用した認識が可能となる。
さらに、クラスの出現頻度の偏りを補正するために、重み付きの非対称的損失関数を用いて学習を行う。
提案手法を4つのMLRベンチマークデータセット(COCO-small、PASCAL VOC、FoodSeg103、UNIMIB2016)で評価した結果、従来手法を上回る性能を示した。特に、VLMのみでは認識が困難なクラスにおいて、大幅な性能向上が確認された。これは、クラス間の共起確率情報が有効に活用されたことを示している。
Stats
データセットにおけるクラス間の共起頻度が高いほど、提案手法による性能向上が大きくなる。
Quotes
"マルチラベル認識(MLR)は、画像に含まれる複数のオブジェクトを同時に認識する課題である。"
"実際のデータでは、ある特定のクラスが共起する傾向があるため、このような相関情報を活用することで性能を向上できると考えられる。"
"提案手法では、ビジョン・ランゲージモデル(VLM)を用いて各クラスの初期的な予測ロジットを得、次に、トレーニングデータから算出したクラス間の条件付き確率を、グラフ畳み込みネットワーク(GCN)を用いて、この初期ロジットを精緻化する。"