المفاهيم الأساسية
대형 언어 모델의 강력한 문서 이해 능력을 활용하되, 계산 자원 요구량을 줄이기 위해 지식 증류 기법을 활용하여 효율적인 문서 이해 모델을 개발하였다.
الملخص
이 연구는 대형 언어 모델인 ChatGPT 3.5의 문서 이해 지식을 FLAN-T5 모델로 증류하는 방법을 제안한다.
- 문서의 OCR 데이터를 활용하여 문서의 레이아웃 정보를 보존하는 텍스트 표현을 생성하고, 이를 과제별 프롬프트 템플릿과 결합하여 대형 언어 모델에 입력한다.
- 이를 통해 대형 모델의 추론 능력과 지식 활용을 활용하면서도 모델 fine-tuning이 필요 없다는 장점이 있다.
- 증류 과정에서 커리큘럼 러닝 기법을 활용하여 학습 데이터를 난이도 순으로 제공함으로써 학생 모델의 수렴 속도와 일반화 능력을 향상시켰다.
- 5개의 문서 이해 연구 데이터셋에 대한 실험 결과, 학생 모델들이 SROIE와 TabFact 데이터셋에서 우수한 성능을 보였다. 특히 FLAN-T5LARGE 모델은 교사 모델을 능가하는 성과를 달성했다.
- 이 연구는 대형 언어 모델의 지식을 효율적인 모델로 증류하는 방법을 제시하여, 문서 이해 분야의 발전에 기여할 것으로 기대된다.
الإحصائيات
문서 당 평균 토큰 수는 DocVQA 518개, InfographicsVQA 756개, WikITableQuestions 1366개, TabFact 718개, SROIE 399개, WebSRC 483개이다.
전체 데이터셋의 총 학습 샘플 수는 57,202개, 테스트 샘플 수는 4,329개이다.
اقتباسات
"대형 언어 모델의 지식 증류는 계산 비용을 줄이면서도 높은 성능을 유지할 수 있는 중요한 연구 분야이다."
"커리큘럼 러닝은 학생 모델의 수렴 속도와 일반화 능력을 향상시키는 데 효과적이다."