核心概念
本稿では、事前学習済みの音声コーデックモデルのフレームレートを階層的に削減することで、長時間の音声合成を可能にする新しい手法、MReQとHALL-Eを提案する。
摘要
HALL-E: 分単位のゼロショット音声合成を実現する階層型ニューラルコーデック言語モデル
Nishimura, Y., Hirose, T., Ohi, M., Nakayama, H., & Inoue, N. (2024). HALL-E: Hierarchical Neural Codec Language Model for Minute-Long Zero-Shot Text-to-Speech Synthesis. arXiv preprint arXiv:2410.04380v1.
本研究は、大規模言語モデル(LLM)ベースの音声合成モデルにおいて、高品質な音声合成を維持しながら、分単位の長時間音声合成を実現することを目的とする。