VoxGenesis introduces an unsupervised speech synthesis framework that discovers a latent speaker manifold and enables voice editing without supervision. By transforming a Gaussian distribution into speech distributions conditioned by semantic tokens, VoxGenesis disentangles speaker characteristics from content information.
VoxGenesisは、監督なしの音声合成フレームワークであり、潜在的な話者マニフォールドを発見し、意味のある音声編集方向を探索します。