Core Concepts
本研究は、画像とテキストを共同で分解し、領域とワードの整合性を強化することで、テキスト指導型セマンティックセグメンテーションの性能を向上させる。
Abstract
本研究は、テキスト指導型セマンティックセグメンテーションの課題に取り組んでいる。従来の手法は、画像全体とテキスト全体の整合性を学習したり、領域とテキストの整合性を学習したりしていたが、テキストは複数の概念を含むのに対し、セマンティックセグメンテーションは同一概念の領域を発見することを目的としているため、課題が残されていた。
本研究では、画像とテキストを共同で分解し、領域とワードの整合性を強化する新しい枠組みを提案している。具体的には以下の3つのモジュールから構成される:
画像テキスト共分解モジュール:
画像セグメンター、テキストセグメンターを用いて、画像の領域とテキストのワードを対応付ける。
領域ワードハイライトモジュール:
領域プロンプトとワードプロンプトを学習し、ビジョン言語モデルの特徴抽出を改善する。
領域ワード整合性モジュール:
学習した領域とワードの特徴量の整合性を強化するための損失関数を導入する。
提案手法は、6つのベンチマークデータセットで最先端の手法を上回る性能を示しており、領域とワードの整合性を学習することの有効性が確認された。
Stats
画像とテキストのペアは、Conceptual Captions 3M (CC3M)とConceptual 12M (CC12M)のデータセットから取得した。
評価には、PASCAL VOC、PASCAL Context、COCO-Object、COCO-Stuff、Cityscapes、ADE20Kの6つのデータセットを使用した。