Основні поняття
옴니부스는 텍스트 프롬프트나 이미지 참조와 같은 다중 모달 명령어를 통해 이미지 합성에서 인스턴스 수준의 공간 제어를 가능하게 하는 새로운 프레임워크입니다.
Анотація
옴니부스: 다중 모달 명령어를 사용한 이미지 합성을 위한 잠재 제어
본 논문에서는 텍스트 프롬프트 또는 이미지 참조를 통해 인스턴스 수준의 다중 모달 사용자 지정으로 공간 제어를 가능하게 하는 이미지 생성 프레임워크인 옴니부스를 소개합니다. 옴니부스는 사용자가 정의한 마스크 및 관련 텍스트 또는 이미지 안내 세트가 주어지면 여러 객체가 지정된 좌표에 배치되고 해당 속성이 해당 안내와 정확하게 일치하는 이미지를 생성하는 것을 목표로 합니다.
잠재 제어 신호 (Latent Control Signal)
옴니부스의 핵심은 공간, 텍스트 및 이미지 조건을 원활하게 통합하는 통합 표현을 제공하는 고차원 공간 특징인 **잠재 제어 신호 (lc)**입니다.
텍스트 조건은 ControlNet을 확장하여 인스턴스 수준의 개방형 어휘 생성을 제공합니다.
이미지 조건은 개인화된 ID로 보다 세밀한 제어를 가능하게 합니다.
다중 모달 명령어 (Multi-modal Instruction)
옴니부스는 텍스트 프롬프트 및 이미지 참조와 같은 다중 모달 입력을 사용하여 제어 가능성을 실현합니다. 이러한 방식으로 사용자는 원하는 사양에 따라 인스턴스의 특성을 자유롭게 정의할 수 있습니다.
텍스트 제어: CLIP 텍스트 인코더를 사용하여 텍스트 설명에서 텍스트 임베딩을 추출하고 잠재 제어 신호에 통합합니다.
이미지 제어: 사전 훈련된 DINOv2 모델을 사용하여 이미지 참조에서 이미지 임베딩을 추출하고 공간 뒤틀림 기술을 사용하여 잠재 제어 신호에 통합합니다.
특징 정렬 (Feature Alignment)
옴니부스는 향상된 ControlNet 프레임워크를 사용하여 공간 이미지가 아닌 잠재 입력의 특징 정렬을 학습합니다.
구조 감독 강화 (Enhanced Structure Supervision)
고주파 영역에 대한 감독을 강화하고 생성 품질을 개선하기 위해 옴니부스는 에지 손실을 사용합니다.
다양한 제어 가능성: 옴니부스는 텍스트 설명, 이미지 참조 및 기하학적 제어를 포함한 광범위한 제어 가능성을 제공합니다.
사용자 편의성: 사용자는 필요에 따라 텍스트 또는 이미지에서 다중 모달 조건을 선택할 수 있습니다.
뛰어난 성능: 옴니부스는 다양한 작업 및 데이터 세트에서 이미지 합성 충실도 및 정렬 측면에서 향상된 성능을 보여줍니다.