核心概念
大規模言語モデル(LLM)のテキストからSQLへの変換における知識蒸留において、従来の手法は性能と効率性のバランスに課題があった。本稿では、訓練データに意図的に誤りを導入することで推論時のカスケード効果を模倣し、訓練と推論の差異を効果的かつ効率的に軽減する新しい知識蒸留手法「KID」を提案する。
摘要
不完全なデータからの学習:テキストからSQLへの自動回帰言語モデルの効率的な知識蒸留に向けて
大規模言語モデル(LLM)は、テキストからSQLへの変換など、自然言語処理の分野で目覚ましい成果を上げています。しかし、LLMは計算コストが高く、実世界でのアプリケーションへの導入が難しいという課題があります。そこで、LLMを圧縮し、推論を高速化する知識蒸留(KD)が注目されています。
従来のKD手法は、主に一般的な命令調整シナリオを対象としており、テキストからSQLへの変換のような複雑なタスクにおける有効性は十分に検証されていませんでした。本研究では、テキストからSQLへのLLMにおけるKDの有効性と効率性を検証し、その課題を克服する新しい手法を提案することを目的としました。
予備実験の結果、既存のKD手法はテキストからSQLへのLLMにおいて、性能と効率性のバランスに課題があることが明らかになりました。具体的には、モデル生成データを用いた手法は高い性能を示すものの、訓練時間が非常に長くなるという問題がありました。