Conceptos Básicos
本稿では、単一話者の音声データを用いて学習可能な、軽量かつ効率的なゼロショットマルチスピーカーTTSフレームワーク「SSL-TTS」を提案する。
Resumen
SSL-TTS: 自己教師あり学習埋め込みとkNN検索を活用したゼロショットマルチスピーカーTTS
El Hajal, K., Kulkarni, A., Hermann, E., & Magimai.-Doss, M. (2024). SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS. arXiv preprint arXiv:2408.10771v2.
従来のゼロショットマルチスピーカーTTSモデルは、多数の話者から得られた大量の音声データと複雑な学習プロセスを必要とする。本研究では、単一話者の音声データを用いて学習可能な、軽量かつ効率的なゼロショットマルチスピーカーTTSフレームワークを提案することを目的とする。