핵심 개념
본 논문에서는 텍스트-이미지 확산 모델에서 추상적인 '창의성' 개념을 구체화하여 새로운 개념을 융합하고 생성하는 능력을 향상시키는 CreTok이라는 새로운 접근 방식을 제안합니다.
초록
텍스트-이미지 확산 모델을 이용한 창의적 생성: CreTok
본 연구 논문에서는 CreTok이라는 새로운 방법을 제안하여 텍스트-이미지 확산 모델의 창의적 생성 능력을 향상시키는 것을 목표로 합니다. 연구진은 '창의적'이라는 추상적인 형용사를 토큰 사전 내에서 구체화하여 새로운 개념을 생성하는 데 초점을 맞췄습니다.
본 연구의 주요 목표는 텍스트-이미지 확산 모델이 '창의적'이라는 개념을 더 잘 이해하고 실행하여 참신한 이미지를 생성하도록 돕는 것입니다. 이를 위해 기존의 토큰 기반 이미지 합성 방법의 한계점, 특히 새로운 명사나 특정 개념 연결에 집중하는 부분을 해결하고자 하였습니다.
CreTok은 '창의성'을 'old'나 'colorful'와 같은 형용사처럼 다양한 스타일에서 적용 가능한 보편적인 토큰인 으로 재정의합니다. 이 토큰은 TP2O 작업을 위해 특별히 설계되었으며, 두 가지 관련 없는 개념을 융합하여 새로운 개념을 생성하는 데 사용됩니다.
CreTok은 텍스트 쌍 샘플 데이터 세트를 사용하여 반복적인 학습 프로세스를 거쳐 개념 융합을 위한 토큰을 미세 조정합니다. 각 반복에서 텍스트 쌍 (t1, t2)을 샘플링하여 제약 프롬프트(예: "a t1 t2")와 대상 프롬프트(예: "a mixture") 간의 유사성을 최적화하여 창의적인 출력을 생성합니다. 이러한 지속적인 개선을 통해 모델은 '창의성'을 광범위하고 적응 가능한 개념으로 해석하고 합성할 수 있습니다.