本研究では、言語モデルベースのTTSシステムに好みの整合性アルゴリズム、特に直接的な好み最適化(DPO)を適用することで、知覚的な品質を大幅に向上させることを示した。1.15Bパラメータの言語モデルベースのTTSモデルを使用し、好みの整合性によって知覚性、話者類似性、主観的評価スコアが一貫して向上し、後者の2つの指標では人間の発話を上回ることを実証した。さらに、好みの整合性は少量のデータ(1時間)でも適用可能であり、ドメイン外のシナリオにも効果的に一般化できることを示した。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы