本研究では、言語モデルベースのTTSシステムに好みの整合性アルゴリズム、特に直接的な好み最適化(DPO)を適用することで、知覚的な品質を大幅に向上させることを示した。1.15Bパラメータの言語モデルベースのTTSモデルを使用し、好みの整合性によって知覚性、話者類似性、主観的評価スコアが一貫して向上し、後者の2つの指標では人間の発話を上回ることを実証した。さらに、好みの整合性は少量のデータ(1時間)でも適用可能であり、ドメイン外のシナリオにも効果的に一般化できることを示した。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jinchuan Tia... alle arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12403.pdfDomande più approfondite