비전 트랜스포머는 분포 변화에 강건한 성능을 보이며, 도메인 적응 및 일반화 전략을 통해 이를 더욱 향상시킬 수 있다.
본 연구는 키-쿼리 상관관계의 구조적 패턴을 활용하여 효과적인 비전 표현을 학습하는 새로운 자기 주의 메커니즘인 구조적 자기 주의(StructSA)를 제안한다.
스펙트럼 합성곱 트랜스포머(SCT)는 하틀리 변환과 합성곱 연산자를 활용하여 이미지의 지역적, 전역적 특징을 효과적으로 포착하고, 주의 메커니즘을 통해 장거리 의존성을 모델링함으로써 우수한 성능을 달성한다.
Softmax 연산을 제거하고 ℓ1-norm을 사용하여 주의 집중 메커니즘을 단순화하는 SimA 기법을 제안한다. SimA는 정확도 저하 없이 계산 효율성을 높일 수 있다.
프롬프트 튜닝 기반 비전 트랜스포머의 적대적 공격에 대한 취약성을 해결하기 위해 ADAPT라는 새로운 프레임워크를 제안한다. ADAPT는 프롬프트에 적응적으로 조건화된 적대적 훈련을 통해 기존 방법들보다 뛰어난 강건성을 달성한다.