本研究は、大規模言語モデルの知識蒸留における順クルバック・ライブラー発散と逆クルバック・ライブラー発散の特性を分析し、新しい適応的手法を提案している。
まず、従来主張されてきた順クルバック・ライブラー発散の平均追求性と逆クルバック・ライブラー発散のモード追求性は、大規模言語モデルの文脈では成り立たないことを実証的・理論的に示した。代わりに、両者は同じ最適化目標を共有し、十分な epoch数で収束することを明らかにした。
しかし実践では十分な epoch数を使えないため、順クルバック・ライブラー発散は頭部に、逆クルバック・ライブラー発散は裾野に焦点を当てることを発見した。そこで本研究は、両者の長所を組み合わせた適応的クルバック・ライブラー発散を提案した。具体的には、頭部と裾野の差異に応じて順クルバック・ライブラー発散と逆クルバック・ライブラー発散の重みを動的に調整する手法である。
提案手法の有効性は、様々なベンチマークタスクにおいて確認された。特に、GPT-4を用いた評価では、提案手法が生成応答の多様性と品質を向上させることが示された。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Taiqiang Wu,... às arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02657.pdfPerguntas Mais Profundas