核心概念
提案されたE2E-HIMフレームワークは、効率的な複数のインスタンスマッティングを可能にします。
要約
人間のインスタンスマッティングは、画像内の各人間インスタンスのアルファマットを推定することを目指しています。提案されたE2E-HIMフレームワークは、一般的な知覚ネットワーク、統合ガイダンスネットワーク、およびインスタンスマッティングネットワークから構成されています。このフレームワークは、画像特徴を抽出し、統合セマンティックガイダンスを生成し、すべてのインスタンスレベルのアルファマットを同時に予測します。提案されたE2E-HIMは、既存の方法よりも高い精度と速度で人間のインスタンスマッティングを実現します。
統計
提案されたE2E-HIMは100.8Mパラメータと305.3 GFlopsで動作します。
Mask R-CNN†は144.5 GFlopsで14.0 FPSで動作します。
PointRend†は92.6 GFlopsで10.4 FPSで動作します。
SOLO†は111.7 GFlopsで13.8 FPSで動作します。
QueryInst†は388.3 GFlopsで7.0 FPSで動作します。
MaskFormer†は181.0 GFlopsで13.9 FPSで動作します。
引用
"Human instance matting aims to estimate an alpha matte for each human instance in an image."
"Despite some efforts to use instance segmentation to generate a trimap for each instance and apply trimap-based matting methods, the resulting alpha mattes are often inaccurate due to inaccurate segmentation."
"To address these problems, this paper proposes a novel End-to-End Human Instance Matting (E2E-HIM) framework for simultaneous multiple instance matting in a more efficient manner."