本研究提出了一种新的知识蒸馏方法,通过最小化反向KLD来将大型语言模型的知识转移到较小的模型中。该方法在生成更精确的响应、降低暴露偏差方面表现优异。实验结果显示MINILLM在各个数据集上均优于标准KD基线,并且从120M到13B不同规模的模型都具有良好的可扩展性和泛化能力。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Yuxian Gu,Li... о arxiv.org 02-29-2024
https://arxiv.org/pdf/2306.08543.pdfГлибші Запити