Core Concepts
ViT의 강점인 전역 표현 능력과 CNN의 지역 표현 능력을 결합하여 도메인 간 차이를 효과적으로 해소하는 하이브리드 모델을 제안한다.
Abstract
이 논문은 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT)의 장점을 결합한 하이브리드 모델을 제안한다. 대부분의 도메인 적응(DA) 방법은 CNN 또는 ViT 기반으로 도메인 간 분포 차이를 정렬하지만, 두 모델의 고유한 특성을 고려하지 않는다.
제안하는 모델인 Explicitly Class-specific Boundaries (ECB)는 ViT와 CNN의 강점을 활용한다. ECB는 ViT 인코더를 사용하여 클래스 특정 경계를 명시적으로 찾고, CNN 인코더를 사용하여 이 경계를 기반으로 타겟 특징을 클러스터링한다. 또한 두 모델 간 지식 교환을 통해 의사 레이블의 품질을 향상시킨다.
실험 결과, ECB는 기존 DA 방법보다 우수한 성능을 보였다. ViT의 전역 표현 능력과 CNN의 지역 표현 능력을 효과적으로 결합하여 도메인 간 차이를 해소할 수 있음을 검증했다.
Stats
도메인 간 분포 차이를 정렬하는 것이 중요하다.
ViT는 전역 표현 능력이 뛰어나지만 데이터가 제한적이면 과적합될 수 있다.
CNN은 상대적으로 작은 데이터셋에서도 잘 작동하지만 지역 표현에 제한적이다.
Quotes
"ViT는 전역 표현 능력이 뛰어나고 대규모 데이터셋에서 강건성을 보여주지만, MLP 레이어로 구성되어 있어 데이터가 제한적이면 과적합될 수 있다."
"CNN은 상대적으로 작은 데이터셋에서도 잘 작동하지만 지역 표현에 제한적이다."