핵심 개념
지속적인 사전 학습은 무감독 도메인 적응 문제에서 강력한 성능을 보이며, 도메인 불변 표현 학습 방법보다 안정적이다.
초록
이 논문은 언어 모델의 무감독 도메인 적응 문제를 다룬다. 특히 지속적인 사전 학습(Continued Pre-Training, CPT) 방법과 도메인 불변 표현 학습 방법의 성능을 비교한다.
실험 결과, CPT 방법은 도메인 불변 표현 학습 방법과 경쟁력 있는 성능을 보이며, 훨씬 더 안정적이다.
CPT 방법의 이점은 다양한 모델 아키텍처, 미세 조정 방법, 데이터 환경에서 일관되게 나타난다.
타깃 도메인에 대한 노출이 중요하며, 마스킹 비율이 높아질수록 타깃 도메인 성능이 급격히 저하된다.
마스킹 과정에서 모델이 하위 작업과 관련된 단어를 예측하면서 하위 작업에 대한 정보를 암묵적으로 학습하게 된다.
이를 통해 지속적인 사전 학습 방법이 언어 모델의 무감독 도메인 적응에 효과적임을 보여준다.
통계
지속적인 사전 학습 모델은 도메인 불변 표현 학습 모델보다 MNLI 데이터셋에서 약 4% 높은 정확도를 보인다.
지속적인 사전 학습 모델의 MNLI 데이터셋 성능 표준 편차는 0.68%로, 도메인 불변 표현 학습 모델의 1.71%보다 훨씬 낮다.
인용구
"지속적인 사전 학습은 도메인 불변 표현 학습 방법보다 경쟁력 있는 성능을 보이며, 훨씬 더 안정적이다."
"타깃 도메인에 대한 노출이 중요하며, 마스킹 비율이 높아질수록 타깃 도메인 성능이 급격히 저하된다."
"마스킹 과정에서 모델이 하위 작업과 관련된 단어를 예측하면서 하위 작업에 대한 정보를 암묵적으로 학습하게 된다."