Core Concepts
확산 모델을 활용한 클래스 간 이미지 혼합 기법인 Diff-Mix를 제안하여 도메인 특화 이미지 분류 성능을 향상시킬 수 있다.
Abstract
이 논문은 텍스트 기반 이미지 생성(T2I) 모델을 활용하여 이미지 분류 성능을 향상시키는 방법을 제안한다. 기존의 T2I 모델 기반 데이터 증강 기법은 생성된 이미지의 충실도(foreground 객체)와 다양성(background 컨텍스트)의 균형을 잡는 데 어려움이 있다.
이를 해결하기 위해 저자들은 Diff-Mix라는 새로운 클래스 간 데이터 증강 기법을 제안한다. Diff-Mix는 두 단계로 구성된다. 첫째, 도메인 특화 데이터셋에 맞춰 Stable Diffusion 모델을 fine-tuning하여 충실도를 높인다. 둘째, 서로 다른 클래스의 참조 이미지를 활용하여 이미지를 편집함으로써 다양성을 높인다.
실험 결과, Diff-Mix는 기존의 증강 기법 및 증류 기반 방법들에 비해 우수한 성능을 보였다. 특히 few-shot, 일반적인 분류, 장기 꼬리 분류 등 다양한 시나리오에서 성능 향상을 달성했다. 이는 Diff-Mix가 충실도와 다양성의 균형을 잘 유지하기 때문인 것으로 분석된다.
Stats
"Red winged Blackbird" 참조 이미지를 활용하여 "Red winged Blackbird" 클래스의 합성 이미지를 생성할 수 있다.
클래스 간 이미지 혼합을 통해 다양한 배경 환경(예: 바다)에서의 "Red winged Blackbird" 이미지를 생성할 수 있다.
Quotes
"Diff-Mix는 충실도와 다양성의 균형을 잘 유지하여 다양한 이미지 분류 시나리오에서 성능 향상을 달성했다."
"클래스 간 이미지 혼합을 통해 배경 다양성을 높임으로써 모델의 전경 개념 식별 능력을 향상시킬 수 있다."