Core Concepts
텍스트 기반 이미지 생성 모델을 활용하여 기존 이미지 데이터셋을 의미론적으로 증강하고, 이를 통해 딥러닝 모델의 일반화 성능을 향상시킬 수 있다.
Abstract
이 논문은 이미지 분류 작업을 위한 데이터 증강 전략을 제안한다. 주요 내용은 다음과 같다:
캡션 생성 모듈:
COCO Captions 데이터셋의 이미지 캡션을 활용하여 접두사, 접미사, 단어 교체, 복합 증강 등 4가지 방식으로 새로운 캡션을 생성한다.
BERT 모델을 사용하여 캡션 내 단어와 클래스 레이블 간 유사도를 계산하고, 이를 통해 적절한 단어 교체를 수행한다.
이미지 생성 모듈:
Stable Diffusion 모델을 활용하여 생성된 새로운 캡션에 대응하는 이미지를 생성한다.
생성된 이미지와 레이블을 COCO 데이터셋 형식으로 저장한다.
데이터 증강:
생성된 이미지를 원본 COCO 데이터셋에 추가하여 분류 모델 학습에 활용한다.
증강 이미지의 비율을 조절하여 모델 성능 향상과 과적합 방지의 균형을 모색한다.
실험 결과:
COCO 데이터셋 내 성능 평가에서 제안 모델이 기존 기법들을 능가하는 성과를 보였다.
PASCAL VOC 데이터셋을 활용한 out-of-domain 실험에서도 제안 모델의 우수한 일반화 성능을 확인했다.
향후 연구 방향으로는 다양한 out-of-domain 데이터셋에서의 추가 실험, Stable Diffusion 모델의 fine-tuning을 통한 성능 향상 등이 있다.
Stats
제안 모델의 COCO 데이터셋 내 성능(mAP): 0.564
제안 모델의 PASCAL VOC 데이터셋 내 성능(mAP): 0.702
Quotes
"최근 텍스트 기반 이미지 생성 모델의 발전으로 새로운 데이터 증강 기회가 열렸다."
"생성된 이미지와 레이블을 COCO 데이터셋 형식으로 저장하여 기존 도구와의 호환성을 높였다."