Core Concepts
CLIP 사전 학습을 활용하여 언어 기반 스타일 증강과 최소한의 미세 조정을 통해 도메인 일반화 의미 분할 성능을 향상시킬 수 있다.
Abstract
이 논문은 도메인 일반화 의미 분할(DGSS)을 위한 간단한 프레임워크인 FAMix를 제안한다. FAMix는 다음 세 가지 핵심 요소로 구성된다:
CLIP 강건성 유지를 위한 최소한의 미세 조정
언어 기반 지역 스타일 증강
소스 및 증강 스타일의 패치 단위 무작위 혼합
저자들은 CLIP 사전 학습이 DGSS에 적합하지 않다는 것을 발견했다. 이를 해결하기 위해 FAMix는 CLIP 표현의 무결성을 유지하면서도 적응성을 높이는 방법을 제안한다.
구체적으로, FAMix는 다음과 같은 과정을 거친다:
언어 프롬프트를 사용하여 클래스 별 스타일 은행을 구축한다.
학습 시 소스 특징과 은행에서 무작위로 선택된 증강 스타일을 혼합한다.
마지막 레이어만 미세 조정하여 상위 수준의 표현을 학습한다.
이를 통해 FAMix는 다양한 도메인 일반화 벤치마크에서 최신 기술을 능가하는 성능을 달성한다.
Stats
소스 도메인(GTAV)에서 학습하고 다양한 타겟 도메인(Cityscapes, BDD-100K, Mapillary, SYNTHIA, ACDC)에서 평가한 결과, FAMix가 기존 방법들을 크게 능가함.
ResNet-50 backbone에서 평균 mIoU가 38.88%로, 기존 최고 성능 36.81%를 넘어섬.
ResNet-101 backbone에서 평균 mIoU가 41.11%로, 기존 최고 성능 35.13%를 크게 상회함.
Quotes
"CLIP 사전 학습이 DGSS에 적합하지 않다는 것을 발견했다."
"FAMix는 CLIP 표현의 무결성을 유지하면서도 적응성을 높이는 방법을 제안한다."
"FAMix는 다양한 도메인 일반화 벤치마크에서 최신 기술을 능가하는 성능을 달성한다."