EzAudio는 효율적인 확산 변환기 아키텍처, 합성 캡션 데이터를 활용한 다단계 학습 전략, 그리고 분류기 없는 가이드 스케일링 기법을 통해 고품질의 텍스트 기반 오디오 생성을 달성합니다.
본 연구는 텍스트 기반 오디오 생성 시 비디오와의 시각적 정렬과 시간적 일관성을 보장하는 새로운 접근법을 제안한다.