Core Concepts
사전 학습 언어 모델을 저자원 데이터에 미세 조정할 때 발생하는 불안정성과 과적합 문제를 해결하기 위해 주의 기반 가중치 혼합 기법과 이중 수준 최적화 프레임워크를 제안한다.
Abstract
이 논문은 사전 학습 언어 모델(PLM)을 저자원 데이터에 미세 조정할 때 발생하는 불안정성과 과적합 문제를 해결하기 위한 방법을 제안한다.
주의 기반 가중치 혼합 기법: 각 가중치를 태스크 가중치와 사전 학습 가중치의 혼합으로 표현하고, 혼합 계수인 주의 매개변수를 통해 이들의 상대적 중요도를 조절한다. 이를 통해 이산적인 하위 네트워크 선택 방식에서 연속적인 최적화로 전환할 수 있다.
이중 수준 최적화(BLO) 프레임워크: 태스크 가중치와 주의 매개변수를 훈련 데이터와 검증 데이터 세트에서 각각 최적화한다. 이를 통해 과적합을 방지하고 일반화 성능을 높일 수 있다.
실험 결과, 제안 방법은 다양한 PLM에서 저자원 데이터 미세 조정 성능을 크게 향상시켰으며, 기존 방법들에 비해 안정성도 높았다.
Stats
저자원 데이터 환경에서 제안 방법이 기존 방법 대비 평균 성능을 1.54%, 1.24%, 1.70%, 0.77% 향상시켰다.
XLNet 모델의 경우 제안 방법이 기존 방법 대비 평균 성능을 8.48% 향상시켰다.
Quotes
"우리는 주의 기반 가중치 혼합 메커니즘을 활용하여 이산적인 하위 네트워크 선택 방식에서 연속적인 최적화로 전환한다."
"이중 수준 최적화 프레임워크를 통해 태스크 가중치와 주의 매개변수를 훈련 데이터와 검증 데이터 세트에서 각각 최적화함으로써 과적합을 방지하고 일반화 성능을 높일 수 있다."