核心概念
連続テキストストリームからの即時音声合成を可能にする、ストリーミング対応のゼロショット音声合成モデルを提案する。
摘要
本論文では、連続テキストストリームからの即時音声合成を可能にする、ストリーミング対応のゼロショット音声合成モデル「LiveSpeech 2」を提案している。
主な特徴は以下の通り:
- Mambaアーキテクチャを採用し、線形時間デコーディングを実現することで、高速な推論を可能にしている。
- ローテーショナル位置エンベディングを用いたクロスアテンションにより、無限長のテキストストリームを処理できる。
- テキストとオーディオの同期を保つためのセマンティックガイダンスを導入している。
これらの機能により、LiveSpeech 2は以下のようなストリーミング向けの課題に対応できる:
- 無限長のテキストストリームに対応
- テキストとオーディオの同期を保ちながら生成
- 短いテキストチャンクの間でも滑らかな遷移を実現
実験の結果、提案手法は既存の非ストリーミングモデルと同等の性能を示しつつ、ストリーミング向けの柔軟性も備えていることが確認された。
统计
音声合成の品質は人間レベルに迫っている
提案手法は既存の非ストリーミングモデルと同等の性能を示している
ストリーミング向けの機能を備えつつ、高速な推論を実現している
引用
"連続テキストストリームからの即時音声合成を可能にする、ストリーミング対応のゼロショット音声合成モデルを提案する。"
"Mambaアーキテクチャを採用し、線形時間デコーディングを実現することで、高速な推論を可能にしている。"
"ローテーショナル位置エンベディングを用いたクロスアテンションにより、無限長のテキストストリームを処理できる。"
"テキストとオーディオの同期を保つためのセマンティックガイダンスを導入している。"