本研究では、自己教師あり音声表現学習(SSL)モデルをフォノーム分類タスクでファインチューニングすることで、文脈非依存の表現を学習させることを示した。
まず、ファインチューニングにより最後のレイヤーの表現が大幅に文脈非依存になることを示した。次に、この文脈非依存な表現を用いて言語モデルを訓練すると、従来手法を上回るパフォーマンスが得られることを示した。
一方で、表現の文脈非依存化は、表現力の低下を招き、音声合成の品質が低下することも明らかになった。言語モデリングと音声生成の間にはトレードオフがあることが示された。
今後の課題としては、SSL、音声合成、ファインチューニングの目的関数を同時に最適化することで、この問題を解決することが考えられる。また、様々なSSLモデルやスーパーバイズド音声モデルを用いて、エンコーダの役割をより詳細に調べることも重要である。さらに、少量のラベル付きデータでも効果が得られることから、低リソース言語への適用も期待できる。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések