Core Concepts
画像とテキストのペアから密な注釈を必要とせずに、オープンボキャブラリーのセマンティックセグメンテーションを学習する効率的なマルチグレインドクロスモーダルアライメントフレームワークを提案します。
Abstract
最近、画像とテキストのペアからオープンボキャブラリーのセマンティックセグメンテーションを学習する方法が注目されています。本論文では、密な注釈が不要であるため、新しい手法であるMulti-Grained Cross-modal Alignment(MGCA)フレームワークを導入しました。このフレームワークは、画像とテキストのペアに対して擬似多粒度セマンティック対応を構築し、オブジェクト、領域、ピクセルレベルのアライメントを明示的に行いました。さらに、下流のセグメンテーションタスクで適応的かつ移植可能な意味単位も開発しました。
Stats
8.7 mIoU on ADE20K [38]
15 million paired data in TCL [4]
4.72M learnable parameters in CC3M datasets [27]
Quotes
"Training solely on CC3M, our method achieves significant advancements over state-of-the-art methods, demonstrating its effectiveness and efficiency."
"In contrast, MGCA establishes the informative object/region/pixel-level positive and negative pairs based on the pixel-to-text similarity matrix."
"Our main contributions can be summarized as follows: We propose an efficient Multi-Grained Cross-modal Alignment (MGCA) framework for text-supervised open-vocabulary semantic segmentation."