本研究では、StyleTTS-ZSと呼ばれる新しい音声合成モデルを提案している。StyleTTS-ZSは、入力テキストと短い発話サンプルを使って、効率的かつ高品質なゼロショット音声合成を行うことができる。
主な特徴は以下の通り:
発話のプロソディ的特徴を固定長のベクトルで表現し、拡散モデルを用いて効率的に生成する。これにより、従来のモデルと比べて10-20倍高速な推論が可能。
発話の特徴を表すテキストエンコーディングと発話サンプルから得られるグローバルなスタイルベクトルを組み合わせることで、高い話者類似度を実現。
マルチモーダルな識別器を導入することで、自然性と話者類似度のバランスを取ることができる。
拡散モデルの蒸留を行うことで、さらなる高速化を実現。
大規模データセットを用いた評価では、従来のSOTAモデルと比べて、自然性、話者類似度、ロバスト性、効率性の全ての指標で優れた性能を示している。また、小規模データセットでも高い性能を発揮することが確認された。
本手法は、リアルタイムの音声対話システムや音声編集、ゼロショットボイスコンバージョンなど、様々な応用が期待できる。一方で、不正利用のリスクも指摘されており、適切な管理と倫理的な利用が重要である。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies