Główne pojęcia
本稿では、拡散確率モデルに基づく音声波形生成モデルであるDiffWaveを用いて、高忠実度かつ多様な乳児の泣き声を無条件生成できることを示す。
Streszczenie
DiffWaveを用いた乳児の泣き声の無条件生成
本稿は、DiffWaveフレームワークを用いた乳児の泣き声の無条件生成に関する研究論文である。
本研究の目的は、DiffWaveフレームワークを用いて、高忠実度かつ多様な乳児の泣き声を無条件生成することである。
2つの異なる乳児の泣き声データセット(Baby ChillantoデータセットとdeBarbaro Cryデータセット)を用いてDiffWaveモデルを学習させた。
DiffWaveモデルは、拡散確率モデルに基づいており、ノイズを追加する拡散プロセスと、ノイズを除去してデータを生成する逆プロセスから構成される。
学習には、Adamオプティマイザを使用し、学習率は2 × 10^-4、バッチサイズは16とした。
NVIDIA 3090 RTX 24GB GPUを用いて、各データセットに対して50万ステップの学習を行った。