Core Concepts
テキストから音声特性を制御するための新しい音声コーパスとモデルの開発が重要である。
Abstract
テキストから音声特性を制御するために、新しい音声コーパスとモデルの開発が提案されている。
コーパスはインターネットから収集された音声関連データを使用して構築され、品質保証と手動注釈が行われている。
モデルは対照的学習法に基づいてトレーニングされ、量的な音声特性を予測することでパフォーマンスを評価している。
Stats
インターネットから自動的に音声関連データを収集しました。
ココナッツコーパスは、幅広いインターネットデータから抽出された高品質な音声データで構成されています。
Quotes
"20代くらいの若い女性が楽しそうな声で訴えるようなしゃべり方をしている。"
"20代くらいの女性が、コソコソした声で、指示するように話している。"
"若い女性が、明るくはきはきした声で、少年のように喋っている。"