แนวคิดหลัก
본 논문에서는 DiffWave 프레임워크를 사용하여 아기 울음 소리와 같은 비음성 발성을 사실적으로 생성하는 방법을 제시합니다.
본 논문에서는 딥러닝 기반 음성 합성 모델인 DiffWave를 사용하여 아기 울음 소리와 같은 비음성 발성을 생성하는 방법을 제시합니다. DiffWave는 노이즈로부터 고품질 오디오를 생성하는 데 탁월한 성능을 보여왔으며, 본 연구에서는 이를 비음성 발성 생성에 적용합니다.
데이터셋
본 연구에서는 두 가지 아기 울음 소리 데이터셋을 사용합니다.
Baby Chillanto 데이터셋: 약 1초 길이의 아기 울음 소리 2,274개 샘플 포함 (청각 장애, 정상 청력, 질식, 배고픔, 통증 등 5가지 범주)
deBarbaro Cry 데이터셋: 울음 소리 및 울음 소리가 아닌 것으로 레이블 된 44,129개 샘플 포함 (본 연구에서는 5초 길이의 울음 소리 22,232개 샘플 사용)
DiffWave 모델
DiffWave는 확산 확률 프레임워크를 기반으로 하는 음성 생성 모델입니다.
순방향 프로세스: 데이터에 점진적으로 노이즈를 추가하여 무작위 가우시안 노이즈에 가까운 잠재 변수로 변환합니다.
역방향 프로세스: 잠재 변수에서 노이즈를 제거하여 원래 데이터를 복구합니다.
모델 학습 및 평가
두 아기 울음 소리 데이터셋을 사용하여 DiffWave 모델을 학습했습니다.
200개의 확산 단계, 30개의 잔차 레이어, Adam optimizer, 2 × 10^-4의 고정 학습률, 16의 배치 크기를 사용했습니다.
학습은 NVIDIA 3090 RTX 24GB GPU를 사용하여 평균 3일 동안 수행되었습니다.
결과
DiffWave 모델은 사실적인 아기 울음 소리를 생성하는 데 성공했습니다.
생성된 울음 소리는 높은 충실도와 다양성을 보였습니다.
본 연구는 DiffWave 프레임워크를 사용하여 아기 울음 소리와 같은 비음성 발성을 사실적으로 생성할 수 있음을 보여주었습니다. 이는 음성 합성 분야의 중요한 진전이며, 향후 다양한 분야에 적용될 수 있을 것으로 기대됩니다.