Kernkonzepte
폐쇄된 대형 언어 모델(LLM)에서 지식을 효율적으로 추출하기 위해 프록시 모델을 활용한 지식 증류 기법인 Proxy-KD를 소개합니다. Proxy-KD는 프록시 모델을 블랙박스 LLM에 정렬시킨 후, 이를 활용하여 소형 LLM에 지식을 전이합니다. 실험 결과, Proxy-KD는 기존의 블랙박스 및 화이트박스 지식 증류 기법보다 성능이 뛰어나, 폐쇄된 LLM 활용의 새로운 가능성을 제시합니다.
Zusammenfassung
블랙박스 대형 언어 모델의 지식 증류 연구 논문 요약
제목: 블랙박스 대형 언어 모델의 지식 증류 (Knowledge Distillation of Black-Box Large Language Models)
저자: Hongzhan Chen, Runjun Chen, Yuqi Yi, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang
기관: 1. 중국 중산대학교 컴퓨터과학 및 공학부, 2. 알리바바 그룹
발행: arXiv:2401.07013v2 (2024년 11월 9일)
본 연구는 GPT-4와 같이 뛰어난 성능을 가졌지만 내부 구조 및 정보에 접근할 수 없는 폐쇄형 대형 언어 모델(LLM)의 지식을, 더 작고 개방적인 모델로 효율적으로 전이하는 방법을 제시합니다.