Core Concepts
EdgeFusion은 자원 제한적인 엣지 디바이스에서 효율적으로 텍스트-이미지 생성을 수행할 수 있도록 최적화된 방법이다. 고품질의 합성 이미지-텍스트 쌍을 활용하고 고급 증류 프로세스를 통해 빠른 생성 속도와 우수한 품질을 달성한다.
Abstract
EdgeFusion은 Stable Diffusion (SD) 모델을 엣지 디바이스에 효율적으로 구현하기 위한 방법이다. 기존 연구들이 모델 크기 감소, 적은 단계 추론, AI 생성 데이터 활용 등의 접근법을 취한 것과 달리, EdgeFusion은 다음과 같은 전략을 취한다:
경량화된 BK-SDM 아키텍처를 기반으로 한다.
고품질의 합성 이미지-텍스트 쌍을 활용하여 모델 성능을 향상시킨다.
Latent Consistency Model (LCM)의 단계 감소 기법을 개선한 고급 증류 프로세스를 적용한다.
모델 레벨 타일링, 양자화 등의 배포 최적화 기법을 통해 엣지 디바이스에서 빠른 추론 속도를 달성한다.
이를 통해 EdgeFusion은 엣지 디바이스에서 1초 이내에 고품질의 텍스트-이미지 생성을 수행할 수 있다. 실험 결과, EdgeFusion은 기존 BK-SDM-Tiny 모델 대비 Inception Score 3.27 증가, FID 5.69 감소, CLIP 스코어 0.018 향상을 보였다. 또한 사용자 평가에서도 62.8%의 선호도를 보였다.
Stats
합성 데이터셋을 활용하여 모델 성능을 크게 향상시킬 수 있었다.
고품질 데이터셋을 사용할 경우 Inception Score가 35.67로 증가하였다.
고급 증류 프로세스를 통해 FID 스코어를 23.34까지 낮출 수 있었다.
CLIP 스코어는 0.287까지 향상되어 텍스트-이미지 정렬 성능이 크게 개선되었다.
Quotes
"EdgeFusion은 자원 제한적인 엣지 디바이스에서도 빠르고 효율적인 텍스트-이미지 생성을 가능하게 한다."
"고품질의 합성 데이터셋과 개선된 증류 프로세스가 EdgeFusion의 핵심 기술이다."
"EdgeFusion은 기존 모델 대비 Inception Score 3.27, FID 5.69, CLIP 0.018 향상을 보였다."