Główne pojęcia
条件付き変分オートエンコーダを用いて、話者のアイデンティティを保ちつつ、任意のアクセントで音声を合成する手法を提案する。
Streszczenie
本研究では、Tacotron2をベースとした条件付き変分オートエンコーダ(CVAE)を用いた音声合成フレームワークを提案している。このフレームワークにより、話者のアイデンティティを保ちつつ、任意のアクセントで音声を合成することができる。
具体的な手法は以下の通り:
- Tacotron2をベースとしたアーキテクチャを採用
- CVAEエンコーダを用いて、話者情報とアクセント情報を分離して表現
- 話者情報と目的のアクセント情報を組み合わせて、目的のアクセントを持つ音声を合成
実験では、L2Arcticデータセットを用いて評価を行った。客観的評価では、メルケプストラム歪み(MCD)とワード誤り率(WER)の観点で良好な結果を示した。主観的評価では、アクセント変換時の自然性が高く評価された。また、アクセントの変換精度とスピーカーアイデンティティの保持のバランスについても考察した。
全体として、提案手法は高品質なアクセント変換を実現し、アクセントを持つ音声合成の分野で有望な手法であることが示された。
Statystyki
音声合成の自然性を示すMOSスコアは、基準音声に比べて有意に低かった(p < 0.001)。
アクセント変換時のMOSスコアは、CVAE-NLモデルが最も高かった。CVAE-LとGMVAEモデルでは、アクセント変換前後で有意な差はなかった。
アクセント類似度のMOSスコアは、CVAE-Lモデルが最も高かった。他のモデルと比べて有意に高かった(p < 0.001)。
スピーカーアイデンティティ保持のMOSスコアは、GMVAEモデルが最も高かった。他のモデルと比べて有意に高かった(p < 0.001)。
Cytaty
"提案手法は高品質なアクセント変換を実現し、アクセントを持つ音声合成の分野で有望な手法である。"
"話者のアイデンティティを保ちつつ、任意のアクセントで音声を合成することができる。"
"アクセントの変換精度とスピーカーアイデンティティの保持のバランスは重要な課題である。"