ニューラルオーディオコーデックの出現により、大規模言語モデルがゼロショット音声合成の有望なアプローチとなっている。本研究では、トークン長の圧縮と複数トークンの一度の生成を可能にするプロバビリスティックな残差ベクトル量子化を提案し、効率的な言語モデリングを実現する。