Core Concepts
확산 모델을 활용하여 원본 데이터 분포에 부합하는 다양한 합성 데이터를 생성하고, 정확한 의사 레이블을 생성하는 새로운 데이터 증강 프레임워크 DreamDA를 제안한다.
Abstract
본 논문은 확산 모델을 활용한 새로운 데이터 증강 프레임워크 DreamDA를 제안한다. 기존의 단순한 변환 기반 데이터 증강 기법은 다양성과 시각적 사실성이 부족하다는 한계가 있다. 이를 해결하기 위해 DreamDA는 원본 데이터를 시드로 활용하여 확산 모델의 역확산 과정을 단계적으로 교란함으로써 원본 데이터 분포에 부합하는 다양한 합성 데이터를 생성한다.
또한 생성된 데이터의 레이블이 시드 이미지의 레이블과 일치하지 않을 수 있는 문제를 해결하기 위해 비대칭 다중 헤드 자기 학습(AMST) 기법을 도입한다. AMST는 4개의 보조 분류기를 활용하여 합성 데이터에 대한 정확하고 신뢰할 수 있는 의사 레이블을 생성하고, 이를 통해 주 분류기를 학습한다.
실험 결과, DreamDA는 다양한 데이터셋과 과제에서 기존 데이터 증강 기법 및 확산 모델 기반 데이터 증강 기법 대비 우수한 성능을 보였다. 특히 자연 이미지 데이터셋에서 처음부터 학습할 때 기존 최강 기법 대비 7.4% 이상의 성능 향상을 달성했다.
Stats
자연 이미지 데이터셋에서 처음부터 학습할 때 DreamDA는 원본 데이터셋 대비 41% 이상의 정확도 향상을 보였다.
자연 이미지 데이터셋에서 사전 학습된 모델을 사용할 때 DreamDA는 원본 데이터셋 대비 4% 이상의 정확도 향상을 보였다.
의료 이미지 데이터셋에서 처음부터 학습할 때 DreamDA는 원본 데이터셋 대비 3.6% 이상의 정확도 향상을 보였다.
Quotes
"확산 모델을 활용하여 원본 데이터 분포에 부합하는 다양한 합성 데이터를 생성하고, 정확한 의사 레이블을 생성하는 새로운 데이터 증강 프레임워크 DreamDA를 제안한다."
"DreamDA는 다양한 데이터셋과 과제에서 기존 데이터 증강 기법 및 확산 모델 기반 데이터 증강 기법 대비 우수한 성능을 보였다."