Khái niệm cốt lõi
제한된 데이터 환경에서 사전 훈련된 대규모 언어 모델(LLM)을 효과적으로 미세 조정하기 위한 다양한 전이 학습 방법과 실용적인 가이드라인을 제시합니다.
Tóm tắt
제한된 데이터로 언어 모델을 미세 조정하는 방법: 실용적 가이드
사전 훈련된 대규모 언어 모델(PLM)은 자연어 처리(NLP) 분야에 혁신을 일으켰지만, 방대한 데이터와 계산 리소스가 필요하다는 단점이 있습니다. 특히 의료, 법률, 금융과 같이 특수 분야나 영어 이외의 언어에서는 데이터 부족 문제가 더욱 심각합니다. 이 논문에서는 저자원 환경에서 모델 성능을 최적화하기 위한 다양한 전이 학습 방법을 제시합니다.
사전 훈련은 LLM이 광범위한 다운스트림 작업을 처리할 수 있도록 기초적인 언어 이해 능력을 개발하는 데 필수적인 단계입니다.
모델 아키텍처 선택
디코더 모델: 텍스트 생성 작업에 적합하며, 이전 토큰을 기반으로 다음 토큰을 예측하는 인과 언어 모델링(CLM) 목표를 사용합니다.
인코더 모델: 분류 작업에 특화되어 있으며, 토큰의 일부를 마스킹하고 모델이 원래 토큰을 예측하도록 훈련하는 마스크 언어 모델링(MLM) 목표를 사용합니다.
인코더-디코더 모델: 텍스트 변환 작업에 탁월하며, 마스크된 시퀀스-투-시퀀스(S2S) 사전 훈련을 통해 마스킹을 토큰 시퀀스로 확장합니다.
지속적인 사전 훈련
교차 언어 정렬: 여러 언어의 단일 언어 코퍼스를 사용하여 모델을 훈련하여 교차 언어 기능을 향상시키고 다국어 설정에서 더 나은 성능을 가능하게 합니다.
도메인 적응: 사전 훈련된 모델을 특정 도메인에 적용하여 도메인별 작업을 효과적으로 처리할 수 있도록 합니다. 특히 전문 분야의 언어와 어휘가 사전 훈련 언어와 상당히 다른 경우 유용합니다.