核心概念
本稿では、音声言語モデリングのための階層型 Transformer である GPST (Generative Pre-trained Speech Transformer) を提案する。GPST は、音声波形を意味トークンと音響トークンの 2 種類の離散表現に量子化し、階層型 Transformer アーキテクチャに統合することで、単一ステージでの音声生成プロセスを実現し、高解像度音声生成能力を向上させる。
要約
GPST:単一ステージ音声生成のための効率的な階層型 Transformer
Zhu, Y., Su, D., He, L., Xu, L., & Yu, D. (2024). Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer. arXiv preprint arXiv:2406.00976v2.
本論文では、従来の音声言語モデルが抱える、ニューラルオーディオコーデックの長時間音響シーケンスモデリングにおける課題を解決することを目的とする。具体的には、音響シーケンスの長さによる計算量の増大と、多段生成プロセスにおけるエラー伝播の問題に対処する。