Core Concepts
Transformer Encoderの計算コストを大幅に削減しつつ、性能を維持する新しい手法PRO-SCALEを提案する。
Abstract
本論文では、効率的な汎用セグメンテーションモデルの構築を目的として、Transformer Encoderの設計に着目している。
従来のMask2Formerモデルでは、Transformer Encoderが全体の計算コストの50%以上を占めていることが課題となっていた。
これは、Encoder内で全長のトークン表現を維持し続けるためである。
そこで本手法PRO-SCALEでは、Encoder層の深さに応じてトークン長を段階的に増加させることで、計算コストの大幅な削減を実現している。
さらに、小規模特徴量の強化を目的としたToken Re-Calibration (TRC)モジュールと、効率的なLight Pixel Embedding (LPE)モジュールを導入することで、性能の維持も図っている。
実験の結果、PRO-SCALEはMask2Formerと比べて52%のGFLOPsを削減しつつ、同等の性能を達成できることが示された。
また、様々なバックボーンや事前学習手法にも適用可能であり、汎用性の高い手法であることが確認された。
Stats
Mask2Formerモデルにおいて、Transformer Encoderが全体の計算コストの50%以上を占めている。
PRO-SCALEを用いることで、Transformer Encoderの計算コストを52%削減できる。
PRO-SCALEを用いることで、COCOデータセットにおいて52.82%のPQを達成できる。
Quotes
"Transformer Encoderが全体の計算コストの50%以上を占めている"
"PRO-SCALEを用いることで、Transformer Encoderの計算コストを52%削減できる"
"PRO-SCALEを用いることで、COCOデータセットにおいて52.82%のPQを達成できる"