EzAudio는 효율적인 확산 변환기 아키텍처, 합성 캡션 데이터를 활용한 다단계 학습 전략, 그리고 분류기 없는 가이드 스케일링 기법을 통해 고품질의 텍스트 기반 오디오 생성을 달성합니다.