核心概念
本研究では、大規模言語モデルを用いたテキスト音訳によりアクセントを持つ音声サンプルを自動生成する手法を提案する。この手法により、アクセント変換システムの学習に有効な並列データセットを構築できる。
摘要
本研究では、大規模言語モデル(LLM)を用いてテキストを別言語に音訳し、その音訳テキストをマルチリンガルTTSモデルに入力することで、アクセントの異なる英語音声を合成する手法を提案している。
主な特徴は以下の通り:
- LLMによるテキスト音訳を通じて、音声サンプルのアクセントを変化させることができる。これにより、話者とアクセントの混同を避けられる。
- 既存の音声サンプルに依存せずに、任意の英語文章からアクセントを持つ音声を生成できる。これにより、リソース不足の英語アクセントにも対応できる。
実験では、提案手法により生成したアクセント付き音声サンプルを用いて、アクセント変換モデルの性能を大幅に向上させることができた。主観評価と客観評価の両方で、提案手法の有効性が確認された。
統計資料
英語の単語"accent"の音訳例:
ヒンディー語: akseMT
日本語: アクセント
韓国語: 액센트