本文提出了一种利用大型语言模型(LLM)提升自动语音识别(ASR)性能的新方法。
第一阶段,作者对LLM进行拼音到字符的预训练,使其能够从拼音序列生成对应的中文字符。这一步使LLM能够在接触真实语音数据之前就适应从发音特征生成文本的能力,增强了其理解语音模态信息的能力。
第二阶段,作者利用预训练的音频模型提取音频特征,并通过降采样等方法将其长度缩短,然后输入到LLM中。通过使用LoRA方法对LLM进行微调,作者使模型能够适应接受语音特征并预测相应的文本序列。
在AISHELL-1语料库上的实验结果显示,与不进行拼音到字符预训练的基线相比,作者的方法在ASR任务中取得了9.5%的相对性能提升。此外,利用额外的纯文本数据进行预训练,可以进一步提升19.0%的相对性能。
这种方法有效地弥补了语音和文本模态之间的差距,特别适用于低资源ASR任务。未来的工作将进一步优化LLM与预训练音频编码器的集成,以进一步提升性能。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Yang Yuhang,... klokken arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.16005.pdfDypere Spørsmål