핵심 개념
SETA는 토큰 수준에서 에지 정보를 선별하고 교란하여 모델의 형상 정보 학습을 향상시킴으로써 도메인 일반화 성능을 높인다.
초록
이 논문은 도메인 일반화(DG) 문제를 다루며, 특히 토큰 기반 모델(ViT, MLP)의 일반화 성능 향상에 초점을 맞추고 있다.
먼저 저자들은 기존 DG 데이터 증강 기법들이 토큰 기반 모델의 형상 정보 학습을 충분히 고려하지 않아 성능이 제한적임을 분석한다. 이에 따라 저자들은 SEmantic-aware Token Augmentation (SETA)라는 새로운 토큰 수준 증강 방법을 제안한다.
SETA의 핵심 구성요소는 다음과 같다:
- Energy-based Edge Tokens Selection (ETS): 입력 특징 맵에서 에지 정보를 가진 토큰을 선별한다.
- Shape Tokens Shuffling (STS): 다른 샘플의 토큰을 섞어 형상 정보를 교란한다.
- 선별된 에지 토큰과 교란된 토큰을 Mixup 또는 CutMix로 결합하여 증강된 샘플을 생성한다.
저자들은 또한 SETA에 SOTA 스타일 증강 기법(DSU, ALOFT)을 결합한 두 가지 변형 기법을 제안하여 형상 정보와 스타일 정보를 동시에 증강한다.
이론적 분석을 통해 저자들은 SETA가 모델의 형상 정보 학습을 장려함으로써 일반화 오차 경계를 줄일 수 있음을 보인다. 실험 결과, SETA와 그 변형 기법들은 다양한 ViT 및 MLP 모델 아키텍처에서 SOTA 성능을 달성한다.
통계
"SETA는 기존 방법 대비 GFNet-H-Ti 모델에서 PACS 데이터셋에서 3.31% 향상된 성능(90.52% vs. 87.21%)을 보였다."
"SETA-S-ALOFT는 Swin-T 모델에서 평균 1.08% 향상된 성능(68.00% vs. 66.92%)을 달성했다."
인용구
"기존 DG 증강 기법들은 주로 채널 수준의 스타일 정보를 교란하는데 초점을 맞추고 있어, 토큰 기반 모델의 형상 정보 학습을 충분히 고려하지 않아 성능이 제한적이다."
"SETA는 토큰 수준에서 에지 정보를 선별하고 교란하여 모델의 형상 정보 학습을 장려함으로써 일반화 성능을 향상시킬 수 있다."