핵심 개념
CogView3는 중계 확산을 통해 더 세밀하고 빠른 텍스트에서 이미지 생성을 제공합니다.
초록
CogView3은 텍스트에서 이미지 생성을 위한 혁신적인 중계 프레임워크로, 저해상도 이미지를 먼저 생성하고 중계 기반 초해상도를 적용하여 작업을 수행합니다. 이 방법론은 경쟁력 있는 텍스트에서 이미지 출력물을 제공할 뿐만 아니라 교육 및 추론 비용을 크게 줄입니다. CogView3은 SDXL을 77.0%의 인간 평가에서 앞선 성과를 보이며 추론 시간의 약 1/2만 필요합니다. CogView3의 증류된 변형은 SDXL의 1/10만 사용하면서 비슷한 성능을 달성합니다.
Introduction
최근 텍스트에서 이미지 생성 시스템에서 확산 모델이 중심적인 프레임워크로 등장
확산 모델은 이미지 합성 작업을 등방성 가우시안 노이즈에서 시작하는 다단계 소음 제거 프로세스로 개념화
Background
확산 모델은 전진 확산 프로세스를 설정하여 실제 데이터 x0에 가우시안 노이즈를 점진적으로 추가
텍스트에서 이미지 확산 모델은 잠재 공간에 일관적으로 적용되어 교육 및 추론 비용을 크게 절감
Method
CogView3는 3단계 UNet 아키텍처를 사용하는 30억 개 파라미터 텍스트에서 이미지 확산 모델의 백본
CogView3은 2단계 중계 확산으로 구현되어 기본 단계는 512×512 해상도에서 이미지를 생성하고 두 번째 단계 모델은 2배 초해상도를 수행하여 1024×1024 이미지 생성
Experiments
CogView3는 기존의 텍스트에서 이미지 확산 모델과 비교하여 높은 품질의 이미지를 생성하고 매우 줄어든 비용으로 성과를 달성
CogView3의 증류는 추론 시간을 극단적으로 줄이면서도 비슷한 성능을 유지
통계
CogView3은 SDXL을 77.0%의 인간 평가에서 앞선 성과를 보이며 추론 시간의 약 1/2만 필요합니다.
CogView3의 증류된 변형은 SDXL의 1/10만 사용하면서 비슷한 성능을 달성합니다.
인용구
"CogView3는 중계 확산을 통해 더 세밀하고 빠른 텍스트에서 이미지 생성을 제공합니다."