핵심 개념
従来の離散音声トークナイザを用いた音声合成は情報損失を引き起こすため、本稿では、より高い情報保持率とサンプリングレートへのロバスト性を備えた連続音声トークナイザを用いた音声合成モデルを提案する。
초록
テキスト音声合成における連続音声トークナイザ: 研究論文の概要
Yixing Li, Ruobing Xie, Xingwu Sun, Yu Cheng, Zhanhui Kang. (2024). Continuous Speech Tokenizer in Text To Speech. arXiv preprint arXiv:2410.17081v1.
本研究は、テキスト音声合成(TTS)タスクにおいて、従来の離散音声トークナイザに起因する情報損失問題を解決し、音声の連続性をより忠実に表現できるTTSモデルの開発を目的とする。