핵심 개념
創造的なタスクを学習するために、教師からのフィードバックを活用することが重要である。
초록
大規模言語モデル(LLMs)の台頭により、知識蒸留を通じて小さな言語モデル(SLMs)に転送されることが可能になった。しかし、創造的なタスクでは、単純な模倣だけでは十分でないことが示唆されている。本研究は、教師LLMによるデータ生成と生徒のパフォーマンス評価を組み合わせた新しい蒸留フレームワークを提案しており、その効果は明らかにされている。また、様々な設計選択肢がパフォーマンスに与える影響も分析されている。
통계
LLMsの出力からSLMsへの知識移行が成功していることを示すWTRは最大65%まで向上した。
学生モデルはBART-FTからBART-BRIO-DPOまでの変化でWTRが増加した。
OODテストセットで学生モデルの性能向上が確認された。
データサイズやフィードバック頻度が学生モデルのパフォーマンスに影響を与えた。
인용구
"Feedback as an additional dimension to data when transferring complex language abilities via distillation."
"Creative tasks might be hard to learn by imitation alone."
"Our work on distilling humor is a step towards more natural and engaging conversations."