本研究は、音声障害者が失った自身の音声を再現できるようにするための手法を提案している。具体的には、ニューラルネットワークを用いて低次元かつ十分に表現力のあるラテントスピーカー埋め込み空間を構築する。この空間内で、ユーザーが簡単な比較タスクを行うことで、徐々に目標の音声に近づけるアルゴリズムを実装している。
シミュレーションと実際のユーザー評価実験の結果、提案手法は目標音声を効果的に近似できることが示された。さらに、メルスペクトログラムジェネレータのヤコビアン分析により、ラテントスペース内の意味のある音声編集方向を特定した。これらの方向を利用することで、ユーザーは生成された音声の音高、音量、声質などの属性を微調整することができる。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы