Conceptos Básicos
CogView3는 중계 확산을 통해 더 세밀하고 빠른 텍스트에서 이미지 생성을 제공합니다.
Resumen
CogView3은 텍스트에서 이미지 생성을 위한 혁신적인 중계 프레임워크로, 저해상도 이미지를 먼저 생성하고 중계 기반 초해상도를 적용하여 작업을 수행합니다. 이 방법론은 경쟁력 있는 텍스트에서 이미지 출력물을 제공할 뿐만 아니라 교육 및 추론 비용을 크게 줄입니다. CogView3은 SDXL을 77.0%의 인간 평가에서 앞선 성과를 보이며 추론 시간의 약 1/2만 필요합니다. CogView3의 증류된 변형은 SDXL의 1/10만 사용하면서 비슷한 성능을 달성합니다.
Introduction
- 최근 텍스트에서 이미지 생성 시스템에서 확산 모델이 중심적인 프레임워크로 등장
- 확산 모델은 이미지 합성 작업을 등방성 가우시안 노이즈에서 시작하는 다단계 소음 제거 프로세스로 개념화
Background
- 확산 모델은 전진 확산 프로세스를 설정하여 실제 데이터 x0에 가우시안 노이즈를 점진적으로 추가
- 텍스트에서 이미지 확산 모델은 잠재 공간에 일관적으로 적용되어 교육 및 추론 비용을 크게 절감
Method
- CogView3는 3단계 UNet 아키텍처를 사용하는 30억 개 파라미터 텍스트에서 이미지 확산 모델의 백본
- CogView3은 2단계 중계 확산으로 구현되어 기본 단계는 512×512 해상도에서 이미지를 생성하고 두 번째 단계 모델은 2배 초해상도를 수행하여 1024×1024 이미지 생성
Experiments
- CogView3는 기존의 텍스트에서 이미지 확산 모델과 비교하여 높은 품질의 이미지를 생성하고 매우 줄어든 비용으로 성과를 달성
- CogView3의 증류는 추론 시간을 극단적으로 줄이면서도 비슷한 성능을 유지
Estadísticas
CogView3은 SDXL을 77.0%의 인간 평가에서 앞선 성과를 보이며 추론 시간의 약 1/2만 필요합니다.
CogView3의 증류된 변형은 SDXL의 1/10만 사용하면서 비슷한 성능을 달성합니다.
Citas
"CogView3는 중계 확산을 통해 더 세밀하고 빠른 텍스트에서 이미지 생성을 제공합니다."