Core Concepts
近隣のパッチに注目することで、追加データやネットワークなしでCLIPベースのオープンボキャブラリーセマンティックセグメンテーションを大幅に改善できる。
Abstract
本論文は、CLIPベースのオープンボキャブラリーセマンティックセグメンテーションの課題に取り組んでいる。
CLIPは画像レベルのタスクに最適化されているため、セマンティックセグメンテーションなどの密な予測タスクには不向きである。特に、パッチ間の空間的整合性を考慮していないことが問題となる。
提案手法「Neighbour-Aware CLIP (NACLIP)」は、CLIPの視覚エンコーダに簡単な変更を加えることで、パッチの近隣情報を考慮するようにする。具体的には、各パッチの注意マップにガウシアンカーネルを加えることで、近隣パッチにも注意を向けるようにしている。
また、CLIPの最終エンコーダブロックの一部を削除することで、セグメンテーションに適したアーキテクチャに変更している。
8つの一般的なセマンティックセグメンテーションベンチマークで評価した結果、NACLIPは追加データやネットワークを必要とせずに、ほとんどのシナリオで最先端のパフォーマンスを達成している。
Stats
提案手法NACLIP は、8つのベンチマークデータセットのうち7つで最先端のパフォーマンスを達成した。
例えば、PASCAL VOC 2012データセットでは62.4%のmIoUを記録し、従来手法を大きく上回った。
Quotes
"近隣のパッチに注目することで、追加データやネットワークなしでCLIPベースのオープンボキャブラリーセマンティックセグメンテーションを大幅に改善できる。"
"提案手法NACLIPは、追加データやネットワークを必要とせずに、ほとんどのシナリオで最先端のパフォーマンスを達成している。"