Core Concepts
本研究通过对中文短文本匹配任务的实验分析,探讨了大规模语言模型在有监督微调中的有效性,包括任务建模方法、提示格式和思维链等因素的影响。结果表明,生成式范式优于判别式方法,尤其在训练数据有限的情况下;提示格式对有监督的大规模语言模型影响较小;而思维链可以提升模型在困难任务上的性能。
Abstract
本研究探讨了大规模语言模型(LLM)在有监督微调中的有效性,以中文短文本匹配任务为例进行实验分析。
-
任务建模方法:
- 生成式任务:将输入文本对和标签组织成单个文本输入,让模型生成目标标签。
- 判别式任务:将输入文本对拼接为单个输入,从LLM最终层提取特征向量,进行二分类。
- 结果表明,在训练数据较少时,生成式方法明显优于判别式方法,包括BERT和判别式CLLM-7B。这是因为生成式方法更贴近预训练过程,更容易激活模型在预训练中学习到的知识。
-
提示格式:
- 简洁提示:直接拼接给定文本对,无任务说明。
- 复杂提示:包含详细的任务说明。
- 结果表明,有监督LLM对提示格式不敏感,因为模型可以从训练数据中准确学习任务定义。
-
思维链(CoT):
- 在输出部分加入CoT,即模型解释自己的判断。
- 结果显示,CoT可以提升模型在困难任务(如BQ)上的性能。
总的来说,本研究表明,LLM可以作为有效的基础模型进行有监督微调,生成式方法优于判别式,而提示格式和CoT也可以进一步提升性能。这些发现可能适用于其他自然语言理解任务。
Stats
中文短文本匹配任务的数据集LCQMC和BQ的统计信息如下:
LCQMC包含260,068个中文查询对,其中238,766个用于训练,8,802个用于开发,12,500个用于测试。
BQ包含120,000个中文句子对,其中100,000个用于训练,10,000个用于开发,10,000个用于测试。
Quotes
"当训练样本数量小于20,000时,CLLM-GEN在LCQMC和BQ两个数据集上都明显优于判别式模型,包括BERT和CLLM-CLS。"
"CLLM-GEN在LCQMC全训练集上的表现优于BERT,但在BQ数据集上失败。我们认为原因是CLLM-7B和BERT一样,缺乏对WeBank的背景知识,而这种知识只能从训练数据中获得。"
"我们的实验结果表明,CoT也可以提升有监督文本匹配任务的性能,尤其是在较难的任务上。"