Core Concepts
트랜스포머 인코더의 점진적 토큰 길이 스케일링을 통해 범용 세그멘테이션 모델의 계산 비용을 크게 줄이면서도 성능 저하를 최소화할 수 있다.
Abstract
이 논문은 범용 세그멘테이션 모델인 Mask2Former의 트랜스포머 인코더 부분에 주목한다. 트랜스포머 인코더가 전체 계산 비용의 50% 이상을 차지하는 것을 관찰하고, 이를 해결하기 위해 PRO-SCALE이라는 새로운 트랜스포머 인코더 설계를 제안한다.
PRO-SCALE의 핵심 아이디어는 인코더 깊이에 따라 토큰 길이를 점진적으로 늘리는 것이다. 이를 통해 초기 레이어에서는 작은 크기의 토큰을 사용하고, 깊은 레이어로 갈수록 큰 크기의 토큰을 사용함으로써 계산 비용을 크게 줄일 수 있다.
또한 PRO-SCALE은 토큰 재보정 모듈(TRC)과 경량 픽셀 임베딩 모듈(LPE)을 추가로 제안한다. TRC 모듈은 작은 크기의 특징 맵을 큰 크기의 특징 맵을 이용해 보강함으로써 성능 저하를 방지한다. LPE 모듈은 픽셀 임베딩 생성 과정을 단순화하여 계산 비용을 크게 낮춘다.
실험 결과, PRO-SCALE은 COCO와 Cityscapes 데이터셋에서 기존 모델 대비 최대 52%의 계산 비용 감소와 함께 경쟁력 있는 성능을 보여준다. 이를 통해 PRO-SCALE이 범용 세그멘테이션 모델의 효율성을 크게 향상시킬 수 있음을 입증한다.
Stats
트랜스포머 인코더가 Mask2Former 모델의 전체 계산 비용의 50% 이상을 차지한다.
PRO-SCALE은 Mask2Former 대비 최대 52%의 계산 비용 감소를 달성한다.
PRO-SCALE은 COCO 데이터셋에서 52.82% PQ 성능을 보이며, 이는 Mask2Former 대비 0.79% 향상된 결과이다.
PRO-SCALE은 Cityscapes 데이터셋에서 63.06% PQ 성능을 보이며, 이는 Mask2Former 대비 0.94% 향상된 결과이다.
Quotes
"트랜스포머 인코더가 전체 계산 비용의 50% 이상을 차지한다."
"PRO-SCALE은 Mask2Former 대비 최대 52%의 계산 비용 감소를 달성한다."
"PRO-SCALE은 COCO 데이터셋에서 52.82% PQ 성능을 보이며, 이는 Mask2Former 대비 0.79% 향상된 결과이다."