Core Concepts
多様なウィンドウサイズの注意機構を用いることで、意味的セグメンテーションのための多スケールな表現を効率的に学習できる。
Abstract
本研究では、意味的セグメンテーションにおける多スケール表現学習の課題を分析し、それを解決するための新しい手法「多様なウィンドウ注意機構(VWA)」を提案した。
多スケール表現学習の2つの主要なアプローチ、すなわち受容野可変カーネルと階層的バックボーンを分析した結果、スケールの不足や受容野の不活性化といった課題が存在することが明らかになった。
VWAは、局所ウィンドウ注意機構(LWA)を拡張したものである。LWAのクエリーウィンドウは固定されているが、コンテキストウィンドウのサイズを可変にすることで、多様な受容野を持つ表現を学習できる。さらに、コンテキストウィンドウサイズの拡大に伴う計算コストの増加を抑えるための工夫も行った。
VWAを活用した多スケールデコーダ「VWFormer」を提案し、既存の多スケールデコーダと比較したところ、同等以下の計算コストで大幅な性能向上が確認された。特に、UPerNetと比べて半分の計算コストで1.0%~2.5%のmIoU向上を達成した。また、Mask2Formerにも適用し、約10GFLOPsの追加コストで1.0%~1.3%のmIoU向上を実現した。
Stats
意味的セグメンテーションのmIoUが1.0%~2.5%向上
計算コストが45%削減
Quotes
"多様なウィンドウサイズの注意機構を用いることで、意味的セグメンテーションのための多スケールな表現を効率的に学習できる。"
"VWAを活用した多スケールデコーダ「VWFormer」は、既存の多スケールデコーダと比較して同等以下の計算コストで大幅な性能向上を達成した。"