核心概念
創造的なタスクを学習するために、教師からのフィードバックを活用することが重要である。
要約
大規模言語モデル(LLMs)の台頭により、知識蒸留を通じて小さな言語モデル(SLMs)に転送されることが可能になった。しかし、創造的なタスクでは、単純な模倣だけでは十分でないことが示唆されている。本研究は、教師LLMによるデータ生成と生徒のパフォーマンス評価を組み合わせた新しい蒸留フレームワークを提案しており、その効果は明らかにされている。また、様々な設計選択肢がパフォーマンスに与える影響も分析されている。
統計
LLMsの出力からSLMsへの知識移行が成功していることを示すWTRは最大65%まで向上した。
学生モデルはBART-FTからBART-BRIO-DPOまでの変化でWTRが増加した。
OODテストセットで学生モデルの性能向上が確認された。
データサイズやフィードバック頻度が学生モデルのパフォーマンスに影響を与えた。
引用
"Feedback as an additional dimension to data when transferring complex language abilities via distillation."
"Creative tasks might be hard to learn by imitation alone."
"Our work on distilling humor is a step towards more natural and engaging conversations."