Основные понятия
블록 단위 LoRA는 사전 학습된 확산 모델에 새로운 개념을 도입하고 원하는 스타일을 반영하여 개인화 및 스타일화를 효과적으로 달성할 수 있다.
Аннотация
이 논문은 텍스트-이미지 생성에서 개인화와 스타일화를 동시에 달성하기 위한 방법으로 블록 단위 LoRA를 제안한다. 기존의 LoRA 기반 방법들은 개인 정체성과 스타일 개념 간의 일관성 있는 생성에 어려움을 겪었다. 이를 해결하기 위해 블록 단위 LoRA는 Stable Diffusion의 U-Net 블록 중 일부를 건너뛰는 방식으로 개인화와 스타일화를 효과적으로 달성할 수 있다. 실험 결과, 블록 단위 LoRA는 학습 속도를 줄이고 다양한 LoRA 모델 간의 충돌을 감소시켜 개인 정체성과 스타일이 조화롭게 반영된 이미지를 생성할 수 있음을 보여준다. 또한 U-Net의 다양한 블록을 활용하는 것이 이미지 생성 과정에 미치는 영향을 분석하여 생성 과정에 대한 이해를 높였다.
Статистика
실험에 사용된 Manga Face Dataset은 20장의 이미지를 25번 반복하여 구성되었으며, 약 500장의 추가 이미지가 포함되었다.
모든 실험에서 Stable Diffusion 1.4를 기반 모델로 사용하였고, 11,000 step의 fine-tuning을 수행하였다.
추론 시 DPM 2M++ Karras 샘플러를 사용하였고, 샘플링 스텝은 25, CFG 스케일은 7.0, 해상도는 학습 이미지와 동일하게 설정하였다.
Цитаты
"LoRA는 모델 파라미터의 저차원 근사를 활용하여 효율적인 fine-tuning을 가능하게 하며, 확산 기반 생성 작업에서 유용한 접근법을 제공한다."
"블록 단위 LoRA는 Stable Diffusion의 U-Net 블록 중 일부를 건너뛰는 방식으로 개인화와 스타일화를 효과적으로 달성할 수 있다."