Core Concepts
텍스트-이미지 확산 모델의 성능을 유지하면서도 다운스트림 작업을 위해 효과적으로 적응시킬 수 있는 직교 미세조정 기법을 제안한다.
Abstract
이 논문은 텍스트-이미지 확산 모델의 제어 문제를 다룬다. 저자들은 두 가지 중요한 텍스트-이미지 생성 작업을 고려한다:
주제 기반 생성: 주어진 몇 장의 이미지만으로 동일한 주체에 대한 다른 맥락의 이미지를 생성하는 작업.
제어 가능한 생성: 추가적인 제어 신호(예: Canny 에지, 분할 맵)를 활용하여 텍스트 프롬프트에 따라 이미지를 생성하는 작업.
이를 위해 저자들은 직교 미세조정(Orthogonal Finetuning, OFT) 기법을 제안한다. OFT는 확산 모델의 뉴런 방향(각도)만을 조정하여 모델을 미세조정하는 방식이다. 이를 통해 모델의 의미 생성 능력을 유지하면서도 다운스트림 작업을 수행할 수 있다.
추가로 제안된 제약 직교 미세조정(Constrained Orthogonal Finetuning, COFT)은 미세조정된 모델이 사전 학습 모델의 근처에 머무르도록 제한한다. 이를 통해 미세조정 안정성을 더욱 향상시킬 수 있다.
실험 결과, OFT와 COFT는 기존 방법들에 비해 생성 품질, 수렴 속도, 미세조정 안정성 면에서 뛰어난 성능을 보인다. 특히 OFT는 훨씬 적은 데이터와 훈련 단계로도 우수한 성능을 달성할 수 있다. 또한 OFT는 추론 시 추가 계산 비용이 없어 효율적으로 배포할 수 있다.
Stats
주제 기반 생성 실험에서 OFT와 COFT는 DINO와 CLIP-I 지표에서 기존 방법들을 크게 능가한다.
제어 가능한 생성 실험에서 OFT와 COFT는 제어 신호 일관성 지표(IoU, mIoU, 랜드마크 오차 등)에서 월등한 성능을 보인다.
Quotes
"OFT는 뉴런 방향(각도)만을 조정하여 모델을 미세조정하는 방식이다. 이를 통해 모델의 의미 생성 능력을 유지하면서도 다운스트림 작업을 수행할 수 있다."
"COFT는 미세조정된 모델이 사전 학습 모델의 근처에 머무르도록 제한하여 미세조정 안정성을 더욱 향상시킬 수 있다."