本文提出了一种两阶段的训练方法,通过在大型语言模型上进行拼音到字符的预训练,使其能够从发音特征生成对应的文本,从而提升其在自动语音识别任务中的性能。此外,利用额外的纯文本数据进行预训练,可以进一步提升模型在低资源自动语音识别任务中的表现。