核心概念
EzAudio는 효율적인 확산 변환기 아키텍처, 합성 캡션 데이터를 활용한 다단계 학습 전략, 그리고 분류기 없는 가이드 스케일링 기법을 통해 고품질의 텍스트 기반 오디오 생성을 달성합니다.
摘要
EzAudio는 텍스트 인코더, 잠재 확산 모델(LDM), 그리고 웨이브폼 VAE로 구성된 혁신적인 텍스트 기반 오디오 생성 프레임워크입니다.
EzAudio-DiT는 다음과 같은 핵심 혁신을 포함합니다:
- 웨이브폼 잠재 공간에서 T2A 모델을 구축하여 2D 스펙트로그램 표현과 추가 신경망 보코더의 복잡성을 해결합니다.
- 오디오 잠재 표현과 확산 모델링에 최적화된 효율적인 확산 변환기 아키텍처를 설계하여 수렴 속도, 학습 안정성, 메모리 사용량을 향상시킵니다.
- 데이터 부족 문제를 해결하기 위해 무레이블 데이터, 오디오-언어 모델로 생성된 합성 캡션 데이터, 그리고 사람이 레이블링한 데이터를 활용하는 데이터 효율적인 학습 전략을 도입합니다.
- 분류기 없는 가이드 스케일링 기법을 통해 텍스트-오디오 정렬을 향상시키면서도 오디오 품질을 유지합니다.
EzAudio는 기존 오픈소스 모델들을 객관적 및 주관적 평가에서 모두 능가하며, 간단한 모델 구조, 낮은 학습 비용, 그리고 쉬운 학습 파이프라인을 제공합니다.
统计
웨이브폼 잠재 표현은 50Hz의 샘플링 속도와 128개의 채널을 가집니다.
EzAudio-DiT-L 모델은 24개의 DiT 블록, 각 블록은 1024개의 채널을 가지며, EzAudio-DiT-XL 모델은 28개의 DiT 블록, 각 블록은 1152개의 채널을 가집니다.
확산 샘플링 시 50 단계와 기본 CFG 점수 3을 사용합니다.
引用
"EzAudio는 효율적인 확산 변환기 아키텍처, 합성 캡션 데이터를 활용한 다단계 학습 전략, 그리고 분류기 없는 가이드 스케일링 기법을 통해 고품질의 텍스트 기반 오디오 생성을 달성합니다."
"EzAudio는 기존 오픈소스 모델들을 객관적 및 주관적 평가에서 모두 능가하며, 간단한 모델 구조, 낮은 학습 비용, 그리고 쉬운 학습 파이프라인을 제공합니다."