Core Concepts
Swin Transformerを使用したSWTformerは、初期シードCAMの精度を向上させ、ローカルとグローバルな視点を組み合わせている。
Abstract
弱教師ありセマンティックセグメンテーションの重要性が増している。
CNNとViTの比較により、Swin Transformerが優れた結果を示すことが明らかになった。
SWTformer-V1は他の手法よりも高い局所化精度を達成し、SWTformer-V2は更に改善された精度を示す。
Swin Transformerの利用により、WSSSでのオブジェクト局所化および初期CAM生成の精度が向上する。
Vision Transformers
ViTは画像データをトークン列に変換し、自己注意機構を使用して長距離依存関係を捉える。
HVTはCNNとViTの長所を組み合わせており、多解像度特徴マップ生成に効果的。
Weakly Supervised Semantic Segmentation with CNNs
WSSSでは主に画像レベルラベルが使用され、CNNが分類バックボーンとして活用される。
初期CAMの質がWSSSの成功に大きく影響することが示唆されている。
Weakly Supervised Semantic Segmentation with ViTs
最近ではViTsもWSSSで使用されており、多くの研究が行われている。
HVTsはまだWSSSで十分に探求されていない。
Stats
SWTformer-V1はPascalVOC 2012データセットで0.98% mAP高い局所化精度を達成した。
SWTformer-V2は5.32% mIoU向上し、Swinn Transformerによるローカルからグローバルな視点の有効性を証明した。
Quotes
"SWTformer-V1は他の手法よりも高い局所化精度を達成しました。"
"SWTformer-V2は更に改善された精度を示しました。"