音声言語モデル(SpeechLM)のトークン化に、音節レベルの粗い音声単位を用いることで、従来の手法に比べてトレーニングと推論の速度を大幅に向上させながら、同等以上の性能を達成できる。
音声表現モデルのフォノーム分類タスクへのファインチューニングは、文脈非依存の表現を学習させ、下流の言語モデリングパフォーマンスを向上させる。