Conceitos essenciais
본 논문에서는 입력 종속 행렬 내의 도메인 특정 특징이 모델 일반화를 저해할 수 있다는 것을 이론적으로 분석하고, 이를 해결하기 위해 Saliency-Driven Token-Aware Transformation(START)을 제안하여 도메인 일반화 성능을 향상시킵니다.
Resumo
START: Saliency-Driven Token-Aware Transformation을 사용한 일반화된 State Space Model 연구 논문 요약
참고 문헌: Jintao Guo1, Lei Qi2∗, Yinghuan Shi1∗Yang Gao1†
1 Nanjing University
2 Southeast University
guojintao@smail.nju.edu.cn, qilei@seu.edu.cn, {syh, gaoy}@nju.edu.cn
38th Conference on Neural Information Processing Systems (NeurIPS 2024).
arXiv:2410.16020v1 [cs.CV] 21 Oct 2024
본 연구는 기존의 CNN 기반 도메인 일반화(DG) 방법들이 가진 texture bias 및 overfitting 문제를 해결하고, Vision Transformer(ViT) 기반 방법들의 높은 계산 복잡도를 개선하기 위해 State Space Model(SSM) 기반의 새로운 DG 모델을 제시합니다. 특히, SSM 내부의 입력 종속 행렬이 도메인 특정 특징을 축적하여 모델 일반화를 저해하는 문제점을 이론적으로 분석하고, 이를 해결하기 위한 Saliency-Driven Token-Aware Transformation(START) 방법을 제안합니다.
본 논문에서는 최신 SSM 기반 모델인 Mamba를 기반으로 입력 종속 행렬의 도메인 특정 특징을 억제하는 START 방법을 설계합니다. START는 입력 종속 행렬(S∆, SB, SC)에 의해 집중되는 토큰을 식별하고, 해당 토큰 내에서 스타일 정보를 교란하여 도메인 불변 특징 학습을 강화합니다.
구체적으로, 두 가지 변형을 제안합니다.
START-M: 입력 종속 행렬을 사용하여 중요 토큰을 식별하고 스타일 증강을 적용합니다.
START-X: 입력 시퀀스의 활성화 값을 기반으로 중요 토큰을 식별하고 스타일 증강을 적용합니다.