Core Concepts
VoxGenesisは、監督なしの音声合成フレームワークであり、潜在的な話者マニフォールドを発見し、意味のある音声編集方向を探索します。
Abstract
人間の声を正確に模倣することは長年の目標であり、VoxGenesisはこの課題に取り組む新しいアプローチです。従来の音声合成モデルとは異なり、VoxGenesisは監督されていないフレームワークであり、音声特徴を波形に変換する代わりに、ガウス分布を意味トークンによって条件付けられた音声分布に変換します。これにより、特定の話者属性に関連付けられた人間が解釈可能な方向を学習し、その方向に沿って潜在コードを操作することで音声編集が可能となります。
Stats
VoxGenesisはより多様で現実的な話者を生成します。
VoxGenesisは前例のない効果的な音声編集手法を提供します。
VoxGenesisは既存手法を凌駕する多話者TTSおよび音声変換性能を示します。
Quotes
"Achieving nuanced and accurate emulation of human voice has been a longstanding goal in artificial intelligence."
"VoxGenesis introduces a mapping network that converts the isotropic Gaussian distribution into a non-isotropic one, enabling the control module to identify major variances."
"We demonstrate that VoxGenesis is adept at performing zero-shot voice conversion and can be effectively utilized as both a vocoder and a speaker encoder in multi-speaker TTS."