Основные понятия
대규모 언어 모델(LLM)을 Text-to-SQL 작업에 효율적으로 활용하기 위해, 본 논문에서는 불완전한 데이터를 활용한 지식 증류(KID) 방법을 제안하여, 훈련-추론 불일치 문제를 효과적으로 완화하고 성능 저하 없이 모델을 경량화합니다.
Аннотация
Text-to-SQL을 위한 자기회귀 언어 모델의 효율적인 지식 증류: 불완전한 데이터로부터의 학습
본 연구는 Text-to-SQL 작업에 사용되는 대규모 언어 모델(LLM)의 높은 계산 비용 및 배포 어려움을 해결하고자 합니다. 특히, 모델 압축 기법인 지식 증류(KD)를 통해 성능 저하 없이 Text-to-SQL LLM을 경량화하고 추론 속도를 향상시키는 것을 목표로 합니다.
본 논문에서는 불완전한 데이터를 활용한 지식 증류(KID) 방법을 제안합니다. KID는 훈련 과정에서 추론의 계단식 효과를 시뮬레이션하여 훈련-추론 불일치 문제를 효과적으로 완화합니다. 구체적으로,
불완전한 데이터 생성: 먼저, 정답 데이터에서 일부 토큰을 마스킹하고, 학생 모델을 사용하여 마스킹된 부분을 예측하여 불완전한 데이터를 생성합니다.
지식 증류: 생성된 불완전한 데이터를 사용하여 학생 모델을 학습시킵니다. 이때, Reverse KL Divergence를 사용하여 교사 모델의 지식을 효과적으로 전달합니다.