本研究では、大規模言語モデルを用いたテキスト音訳によりアクセントを持つ音声サンプルを自動生成する手法を提案する。この手法により、アクセント変換システムの学習に有効な並列データセットを構築できる。
本研究では、多レベルVAEと敵対的学習を組み合わせたモデルを提案し、テキスト・トゥ・スピーチにおけるアクセント変換の性能を向上させる。