Kernekoncepter
非ネイティブ話者の発音を改善するだけでなく、アクセント変換も行う新しいアクセント変換(AC)アプローチを開発した。
Resumé
論文情報
- タイトル:ネイティブTTSからの知識蒸留と合成グランドトゥルースによる発音とアクセント変換の改善
- 著者:Tuan Nam Nguyen、Seymanur Akti、Ngoc Quan Pham、Alexander Waibel
- 所属:カールスルーエ工科大学 インタラクティブシステム研究所
研究目的
本研究は、第二言語(L2)英語学習者によく見られるアクセントと発音ミスを改善するために、アクセント変換(AC)モデルの能力を高めることを目的とする。具体的には、非ネイティブ話者の発音を改善しながらアクセントを変換する新しいACアプローチを開発し、その有効性を評価する。
手法
本研究では、VITSフレームワークを用いて、非ネイティブ音声からネイティブ音声への直接マッピングを学習するACモデルを提案する。
- ネイティブVITSと事前学習済みACモデルの学習: まず、VITSフレームワークを用いて、ネイティブ音声のみで学習したTTSモデルと、ネイティブ音声と非ネイティブ音声の両方で学習したACモデルを事前学習する。
- 理想的なグランドトゥルースの生成: 事前学習したネイティブTTSモデルを用いて、非ネイティブ音声に対応する理想的なグランドトゥルース音声(ネイティブ発音、同一話者、同一期間、同一韻律)を生成する。
- 理想的なグランドトゥルースとネイティブTTSからの知識蒸留を用いたACモデルのファインチューニング: 事前学習したACモデルを、生成したグランドトゥルースデータを用いてファインチューニングする。この際、ネイティブTTSモデルから知識蒸留を行うことで、ACモデルのアクセントに依存しない特徴の学習を促進する。
主な結果
- 提案手法は、従来のACモデルと比較して、WERが低いことから、発音をネイティブ音声に近づけることに成功している。
- 合成グランドトゥルースを用いずに、テキストエンコーダと音声エンコーダの間の知識蒸留損失のみを用いてファインチューニングした場合でも、発音の改善が見られる。
- 提案手法は、話者同一性を維持しながら、アクセント変換と発音の改善を実現できることを示した。
意義
本研究は、非ネイティブ話者の発音とアクセントを同時に改善する新しいACモデルを提案し、その有効性を示した。これにより、L2学習者のコミュニケーション能力向上に貢献することが期待される。
今後の課題
- 感情や韻律をより効果的に変換する手法の検討
- 提案手法を他の言語に適用する際の課題の検討
Statistik
合成グランドトゥルースのWERは5.1であった。
話者埋め込みコサイン類似度(SECS)は、すべての設定において0.82から0.84の間で安定していた。
Citater
"This research focuses on investigating techniques to enhance AC models’ capacity to improve pronunciation made by L2 speakers and devising appropriate evaluation measures for this purpose."
"Building on the strengths and limitations of existing AC models, we propose a novel framework for training a non-autoregressive AC model using generated parallel data."