이 연구 논문에서는 자동 회귀(AR) 모델을 사용하여 제어 가능한 이미지 생성을 가능하게 하는 ControlAR이라는 새로운 프레임워크를 제안합니다. AR 모델은 최근 이미지 생성 분야에서 주목할 만한 잠재력을 보여주고 있지만, ControlNet과 같은 제어 가능한 이미지 생성은 아직까지 크게 다루어지지 않았습니다. 본 논문에서는 AR 모델에서 제어 가능한 이미지 생성을 가능하게 하는 효율적이고 효과적인 프레임워크인 ControlAR을 소개합니다.
제어 인코더: ControlAR은 Canny 엣지, 깊이 맵 또는 분할 마스크와 같은 공간 제어 입력을 제어 토큰으로 변환하는 경량 제어 인코더를 사용합니다. Vision Transformer(ViT)를 인코더로 사용하고, 공간 제어 인코딩에 가장 효과적인 ViT 사전 학습 방식(예: 바닐라 또는 자체 지도)을 연구합니다.
조건부 디코딩: ControlAR은 조건부 디코딩 방법을 사용하여 이전 이미지 토큰과 현재 제어 토큰의 토큰별 융합을 조건으로 다음 이미지 토큰을 생성합니다. 이는 위치 인코딩과 유사하게 작동합니다. 조건부 디코딩을 사용하면 토큰을 미리 채우는 것보다 AR 모델의 제어 기능이 크게 강화되면서도 모델 효율성은 유지됩니다.
임의 해상도 이미지 생성: ControlAR은 조건부 디코딩과 특정 제어를 통해 AR 모델에 임의 해상도 이미지 생성 기능을 제공합니다. 즉, ControlAR은 제어 토큰의 시퀀스에 따라 이미지 토큰을 디코딩하여 해상도 인식 프롬프트 없이도 모든 해상도의 이미지를 쉽게 생성할 수 있습니다.
다중 해상도 ControlAR (MR-ControlAR): 다양한 해상도의 이미지 품질을 더욱 향상시키기 위해 다중 스케일 학습을 사용하는 다중 해상도 ControlAR(MR-ControlAR)을 제안합니다.
ControlAR은 다양한 입력(엣지, 깊이 및 분할 마스크 포함)에서 자동 회귀 제어-이미지 생성에 대한 제어 가능성을 보여줍니다. 또한 정량적 및 정성적 결과 모두 ControlAR이 ControlNet++와 같은 이전의 최첨단 제어 가능한 확산 모델보다 우수함을 나타냅니다.
ControlAR은 AR 모델을 사용한 제어 가능한 이미지 생성을 위한 새롭고 유망한 프레임워크입니다. ControlAR은 다양한 제어 신호를 사용하여 고품질 이미지를 생성할 수 있으며, 이는 이미지 편집, 이미지 생성, 비디오 생성을 포함한 광범위한 응용 프로그램에 적합합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문