대형 언어 모델의 지식 증류는 오픈 소스 모델에 고급 능력을 전달하고 모델 압축 및 자체 개선을 촉진하는 중요한 방법입니다.
교사 모델의 잘못된 예측을 바로잡고 적절한 데이터를 선택하여 학생 모델의 성능을 향상시킨다.
문장 수준 지식 증류는 복잡한 시나리오에 더 적합하고, 토큰 수준 지식 증류는 단순한 시나리오에 더 적합하다.
대규모 언어 모델(LLM)에서 지식을 추출하여 소규모 문서 이해 모델의 성능을 향상시키는 DocKD 프레임워크를 제안하며, 외부 문서 지식을 활용하여 고품질 문서 주석을 생성하고 다양한 다운스트림 작업에서 기존 방법보다 우수한 성능을 달성했습니다.
소규모 언어 모델의 추론 능력을 향상하기 위해 다수의 대규모 언어 모델로부터 피어 리뷰를 기반으로 지식을 증류하고, 학생 모델이 자신의 오답으로부터 학습하는 방법을 제시한다.
점진적 지식 증류는 중간 학습 단계의 교사 모델을 활용하여 암묵적인 커리큘럼을 생성하고, 이를 통해 학생 모델의 특징 학습을 가속화하여 더 빠른 성능 향상을 이끌어낸다.
본 논문에서는 더 강력한 교사 모델로부터 효율적이고 강건한 지식 증류를 달성하기 위해 피어슨 및 스피어만 상관관계 기반 손실 함수를 결합한 새로운 상관관계 매칭 지식 증류(CMKD) 방법을 제안합니다.
대규모 언어 모델(LLM)에서 추출한 선언적 지식을 활용하여 시각적 질문 답변(VQA) 시스템의 추론 능력을 향상시키는 방법을 제시합니다.
서로 다른 증강 기법을 교사 모델과 학생 모델에 각각 적용하는 듀얼 증강 전략을 통해, 학생 모델이 더욱 강력하고 일반화된 특징 표현을 학습하도록 유도하여 지식 증류의 성능을 향상시킬 수 있다.
대규모 언어 모델(LLM)을 Text-to-SQL 작업에 효율적으로 활용하기 위해, 본 논문에서는 불완전한 데이터를 활용한 지식 증류(KID) 방법을 제안하여, 훈련-추론 불일치 문제를 효과적으로 완화하고 성능 저하 없이 모델을 경량화합니다.