핵심 개념
Mask2Former系のユニバーサルセグメンテーションモデルにおいて、入力画像に応じて動的にエンコーダーの層数を選択することで、計算コストを削減しつつ性能を維持する。
초록
本研究では、Mask2Former系のユニバーサルセグメンテーションモデルに対して、効率的なTransformerエンコーダーを提案する手法「ECO-M2F」を紹介する。
まず、Step Aでは、エンコーダーの層数を動的に選択できるように親モデルを訓練する。次にStep Bでは、各入力画像に対して最適なエンコーダー層数を記録したデータセットを作成する。最後にStep Cでは、この情報を用いてゲーティングネットワークを訓練し、入力画像に応じて最適なエンコーダー層数を選択できるようにする。
この手法により、計算コストを大幅に削減しつつ、性能を維持することができる。また、ユーザーの計算リソースに応じてパラメータを調整できるため、柔軟性が高い。さらに、セグメンテーションタスクだけでなく、物体検出タスクにも適用可能である。
통계
入力画像によっては、最大のセグメンテーション性能を得るためにエンコーダーの全層数を使う必要がない
COCOデータセットでは、28.9%の画像が2層、23.7%の画像が3層で最大のセグメンテーション性能を得られる
Cityscapesデータセットでは、28.9%の画像が2層、23.7%の画像が3層で最大のセグメンテーション性能を得られる
인용구
"Vision transformer based models bring significant improve-ments for image segmentation tasks. Although these architectures of-fer powerful capabilities irrespective of specific segmentation tasks, their use of computational resources can be taxing on deployed devices."
"To this end, we introduce ECO-M2F or EffiCient TransfOrmer Encoders for Mask2Former-style models. Noting that the encoder module of M2F-style models incur high resource-intensive computations, ECO-M2F provides a strategy to self-select the number of hid-den layers in the encoder, conditioned on the input image."