核心概念
本文提出了一种利用大型语言模型对中文语音识别全文进行错误纠正的方法。通过构建中文全文错误纠正数据集ChFT,并设计多种提示模板,对预训练的大型语言模型进行微调,在全文和片段层面上均取得了良好的纠错性能。
摘要
本文提出了一种利用大型语言模型(LLM)对中文语音识别(ASR)全文进行错误纠正的方法。首先,作者构建了一个名为ChFT的中文全文错误纠正数据集,该数据集涵盖了多个领域的新闻文章,并包含了文本到语音合成、ASR以及错误纠正对提取等步骤。这使得该数据集能够覆盖全文和片段层面的错误,并涉及标点符号恢复和逆文本规范化等广泛的错误类型。
其次,作者在ChFT数据集上微调了预训练的LLM模型ChatGLM,并设计了基于全文和片段的提示模板,输出格式包括直接纠正的文本和基于JSON的错误纠正对。通过在同质、最新和困难等不同测试集上的评估,作者发现微调后的LLM在全文设置下表现良好,每种提示模板都有其自身的优缺点。这为进一步研究奠定了一个有希望的基准。
統計資料
"我的觉得。这10足是个impress的经历,觉得呢?"
"我觉得,这十足是个impressive的经历,你觉得呢?"
"10足是": "十足是"
"impress": "impressive"
"觉得呢?": "你觉得呢?"
引述
"通过构建中文全文错误纠正数据集ChFT,并设计多种提示模板,对预训练的大型语言模型进行微调,在全文和片段层面上均取得了良好的纠错性能。"
"微调后的LLM在全文设置下表现良好,每种提示模板都有其自身的优缺点。"