本文提出了一种利用大型语言模型(LLM)对中文语音识别(ASR)全文进行错误纠正的方法。首先,作者构建了一个名为ChFT的中文全文错误纠正数据集,该数据集涵盖了多个领域的新闻文章,并包含了文本到语音合成、ASR以及错误纠正对提取等步骤。这使得该数据集能够覆盖全文和片段层面的错误,并涉及标点符号恢复和逆文本规范化等广泛的错误类型。
其次,作者在ChFT数据集上微调了预训练的LLM模型ChatGLM,并设计了基于全文和片段的提示模板,输出格式包括直接纠正的文本和基于JSON的错误纠正对。通过在同质、最新和困难等不同测试集上的评估,作者发现微调后的LLM在全文设置下表现良好,每种提示模板都有其自身的优缺点。这为进一步研究奠定了一个有希望的基准。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhiyuan Tang... lúc arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07790.pdfYêu cầu sâu hơn