Keskeiset käsitteet
表現力豊かな音声合成は、単一の感情表現の合成から、より複雑な長期的な行動の合成へと進化しつつある。これにより、人工知能エージェントとの自然な会話インターフェースの実現が期待されている。
Tiivistelmä
本論文では、表現力豊かな音声合成(ESS)の発展の歴史と現状について概説している。
まず、ESS研究の歴史を振り返り、モデルベースアプローチからデータドリブンアプローチへの移行、そして深層学習の登場による大きな進展について説明している。
次に、ESS技術の主な応用分野として、人間-コンピューター対話、コンテンツ制作、音声変換、コンピューター-コンピューター対話の4つを紹介している。これらの分野では、ESS技術の活用によって新たな可能性が生まれつつある。
その上で、ESS技術が対象とする感情や性格、気分、意図などの表現的特徴を整理し、それらを「状態」と「特性」に分類している。単一の感情表現の合成(Stage I ESS)から、より複雑な長期的な行動の合成(Stage II ESS)への進化の必要性について論じている。
最後に、Stage II ESSの実現に向けた課題として、強化学習によるExpressive Policyの学習、混合状態の合成、個人差への適応などについて述べている。
Tilastot
音声合成技術は、コンピューターの登場以来長年の研究対象である。
1950年代から1960年代にかけて、デジタルボコーダーの実装が行われた。
1960年代以降、モデルベースアプローチからデータドリブンアプローチ、そして深層学習へと進化してきた。
表現力豊かな音声合成の主な応用分野は、人間-コンピューター対話、コンテンツ制作、音声変換、コンピューター-コンピューター対話である。
Lainaukset
"Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research."
"Starting with model- and 'rule'-based approaches [3, 4], quickly moving to data-driven concatenative synthesis [5, 6, 7, 8], and then later to statistical models [9, 10], text-to-speech synthesis (TTS) has progressed in leaps-and-bounds in recent years with the advent of deep learning (DL) [11]."
"Expectedly, synthesis quality and controllability are improving at an accelerating rate [20]."