Основні поняття
合成データを活用することで、音声と身振りの統合的な生成モデルの性能を向上させることができる。また、モデルの構造を改善することで、より自然で制御可能な出力を生成できる。
Анотація
本論文では、音声と身振りの統合的な生成に関する2つの改善点を提案している。
合成データを事前学習に活用する
音声合成、テキスト生成、身振り生成の各モデルを用いて大量の合成データを作成する
この合成データを用いて事前学習を行い、その後に実際のデータでファインチューニングを行う
モデルの構造を改善する
確率的な発話時間モデルを導入する
発話のピッチと強さを個別に予測するモジュールを追加する
話者情報を入力に加える
実験の結果、合成データを用いた事前学習によって音声と身振りの品質が向上し、提案モデルの構造改善によってさらなる改善が見られた。一方で、人間の発話と身振りの自然さには未だ及ばない。今後の課題として、より大規模な合成データの活用や、発話と身振りの相互依存性をより適切にモデル化することが挙げられる。
Статистика
合成データを用いた事前学習によって、音声のWER(Word Error Rate)が13.28%から9.29%に改善された。
提案モデルのMOSは、音声が3.62、身振りが3.52であった。
Цитати
"合成データを活用することで、音声と身振りの統合的な生成モデルの性能を向上させることができる。"
"モデルの構造を改善することで、より自然で制御可能な出力を生成できる。"