本論文は、大規模言語モデル(LLM)から小規模言語モデル(SLM)への段階的推論能力(Chain-of-Thought: CoT)の移転手法を提案している。
まず、LLMが生成したデモンストレーションを使ってSLMに命令チューニングを行い、CoT能力の初期化を行う。その後、直接選好最適化(DPO)アルゴリズムを用いて、SLMが自己洗練を行い、LLMとの整合性を高める。
実験の結果、命令チューニングのみでは不十分だが、自己洗練を加えることで、LLMとSLMの推論能力の整合性が大幅に向上することが示された。特に、LLMと異なるファミリーのSLMに対しても、この手法は有効であることが確認された。さらに、in-domain、out-domainの両方のタスクでも良好な結果が得られた。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Leon... às arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00402.pdfPerguntas Mais Profundas