核心概念
Reverse KLD is proposed for distilling LLM knowledge into smaller models, improving performance and reducing exposure bias.
摘要
本研究提出了一种新的知识蒸馏方法,通过最小化反向KLD来将大型语言模型的知识转移到较小的模型中。该方法在生成更精确的响应、降低暴露偏差方面表现优异。实验结果显示MINILLM在各个数据集上均优于标准KD基线,并且从120M到13B不同规模的模型都具有良好的可扩展性和泛化能力。
統計資料
120Mから13Bのモデルファミリーに対して、MINILLMは標準KDベースラインよりも優れたパフォーマンスを示す。
MINILLMはさまざまなNLPタスクで高い精度と性能を実現し、生成多様性を保持する。
引述
"Extensive experiments show that MINILLM generates more precise responses with higher overall quality."
"Our method is scalable for different model families with 120M to 13B parameters."