Core Concepts
본 논문에서는 텍스트 설명을 바탕으로 사실적인 패션 의상 스케치를 생성하는 데 특화된 새로운 데이터셋인 FLORA와, 기존 LoRA 어댑터보다 우수한 성능을 보이는 새로운 모델 아키텍처인 KAN 어댑터를 제안합니다.
Abstract
FLORA 데이터셋과 KAN 어댑터: 텍스트 기반 패션 디자인의 새로운 지평
본 연구 논문에서는 인공지능 기반 패션 디자인 분야, 특히 텍스트 설명을 사용하여 사실적인 패션 의상 스케치를 생성하는 데 중점을 두고 있습니다. 이를 위해 두 가지 주요 기여를 소개합니다. 첫째, 4,330개의 의상 스케치와 상세한 텍스트 설명 쌍으로 구성된 대규모 데이터셋인 FLORA(Fashion Language Outfit Representation for Apparel Generation)를 제시합니다. 둘째, 모델의 적응성과 효율성을 향상시키는 새로운 모델 아키텍처인 KAN 어댑터를 소개합니다.
기존 텍스트-이미지 생성 모델은 사실적인 이미지 생성에는 탁월하지만, 패션 스케치에 최적화되어 있지 않고, 특히 상세한 텍스트 설명을 기반으로 스케치를 생성하는 데 필요한 특수 데이터셋이 부족합니다. 이러한 문제를 해결하기 위해 본 논문에서는 텍스트-패션 스케치 생성에 특화된 최초의 데이터셋인 FLORA를 제안합니다.
FLORA 데이터셋 구축 과정
웹 스크래핑 및 필터링: '패션 의상 스케치', '패션 일러스트', '웨딩드레스 스케치', '패션 연필 스케치' 등 다양한 검색어를 사용하여 10,042개의 이미지를 수집했습니다.
다단계 필터링: 수집된 이미지에서 서명, 워터마크, 텍스트 오버레이와 같은 노이즈를 제거하고 배경을 정리하기 위해 LLaVa 32b, Keras-OCR, ControlNet Stable Diffusion Scene-Text Eraser, 배경 제거 모델 등 다양한 AI 모델을 활용한 다단계 필터링을 적용했습니다.
수동 필터링: 최종적으로 4,330개의 깨끗하고 관련성 높은 이미지를 얻기 위해 수동으로 이미지를 확인하고 중복된 이미지를 제거했습니다.
텍스트 설명 생성: OpenAI의 GPT-4o를 사용하여 각 스케치에 대한 상세한 텍스트 설명을 생성했습니다. 각 설명에는 모델의 포즈, 의상 디테일, 색상, 액세서리 등이 포함됩니다.
FLORA 데이터셋의 활용 및 독창성
FLORA 데이터셋은 의상 생성을 위한 이미지 생성 및 설명 기반 디자인 분야의 중요한 격차를 해소합니다. 이는 디자이너가 스케치에 필요한 수동 작업을 줄이고 기술과 아이디어를 개발할 수 있는 탄탄한 기반을 제공합니다. 또한, 비전문가도 텍스트-스케치 플랫폼을 통해 창의적인 아이디어를 표현할 수 있도록 지원합니다. 기존 데이터셋이 가상 착용이나 인체 포즈 추정에 중점을 둔 반면, FLORA는 스케치에 중점을 두어 AI 기반 패션 디자인의 창의성과 혁신을 향상시키는 데 귀중한 도구가 됩니다.
LoRA 모듈과 KAN의 배경
LoRA(Low-Rank Adaptation) 모듈은 학습 가능한 매개변수 수를 최적화하여 대규모 모델을 효율적으로 미세 조정하는 방법입니다. LoRA는 모델의 학습된 특징을 유지하면서 유사하거나 향상된 결과를 얻을 수 있도록 학습 가능한 어댑터를 추가합니다. KAN(Kolmogorov-Arnold Networks)은 고차원 함수를 일변량 함수의 합으로 분해할 수 있다는 Kolmogorov-Arnold 표현 정리를 기반으로 하며, 학습 가능한 B-스플라인 함수를 활성화 레이어로 사용하여 기존 MLP보다 유연하고 표현력이 뛰어나면서도 더 적은 매개변수를 필요로 합니다.
제안하는 KAN 어댑터
KAN 어댑터는 학습 가능한 스플라인 기반 활성화 함수를 사용하는 Kolmogorov-Arnold 네트워크(KAN)를 활용하는 새로운 접근 방식입니다. 이 아키텍처는 복잡하고 고도로 비선형적인 함수를 효율적으로 근사하여 매개변수 효율성과 유연성을 향상시킵니다. MLP 기반 LoRA를 KAN 어댑터로 대체하면 계산 효율성과 적응성이 향상되어 정교한 비선형 표현이 필요한 작업에 적합합니다.
KAN 어댑터의 장점
미세 조정된 표현: KAN 어댑터는 학습 가능한 기저 함수를 사용하여 데이터 내에서 미세한 패턴을 포착할 수 있습니다. 이는 복잡한 종속성을 학습해야 하는 작업에 매우 중요합니다.
향상된 안정성 및 기억력: KAN 어댑터는 적응형 학습 가능 활성화 함수를 통해 추가적인 복원력을 제공합니다. MLP 기반 LoRA의 정적 활성화와 달리 KAN 어댑터의 비선형 함수는 새로운 작업에 맞게 동적으로 조정하여 이전 작업의 중요한 표현을 덮어쓰지 않고 선택적으로 유지할 수 있습니다.
빠른 수렴: KAN 어댑터는 LoRA에 비해 더 빠른 수렴을 보여줍니다. 즉, 더 적은 학습 단계에서 최적 또는 거의 최적의 성능에 도달할 수 있으므로 계산 효율성이 더 높습니다.