Core Concepts
사전 학습된 언어 모델의 크기를 줄이면서도 성능 저하를 최소화하기 위해 신경 네트워크 구조 탐색 기법을 활용한다.
Abstract
이 논문은 사전 학습된 언어 모델(PLM)의 크기를 줄이면서도 성능 저하를 최소화하는 방법을 제안한다. PLM은 자연어 이해 작업에서 최첨단 성능을 보이지만, 큰 크기로 인해 실제 응용 프로그램에 배포하기 어려운 문제가 있다.
논문에서는 신경 네트워크 구조 탐색(NAS) 기법을 활용하여 PLM의 하위 부분을 찾는다. 이를 통해 모델 크기 또는 지연 시간과 같은 효율성과 일반화 성능 간의 최적의 균형을 찾는다. 기존 가지치기 방법은 고정된 임계값을 사용하지만, 이 논문에서는 다목적 접근 방식을 제안하여 Pareto 최적 하위 네트워크 집합을 식별한다. 이를 통해 가지치기 프로세스를 여러 번 실행할 필요 없이 요구 사항에 맞는 최적의 모델을 선택할 수 있다.
논문은 다음과 같은 기여를 제공한다:
NAS와 구조적 가지치기 간의 관계를 설명하고, 미세 조정된 PLM을 압축하기 위한 NAS 접근 방식을 제시한다.
변압기 기반 PLM을 가지치기하기 위한 4가지 다른 검색 공간을 제안하고 비교한다.
다목적 NAS를 위한 벤치마킹 스위트를 제공하고, 최근 제안된 가중치 공유 기반 NAS 방법을 이 설정에 적용한다.
Stats
사전 학습된 BERT 모델은 12개의 레이어, 3072개의 유닛, 12개의 헤드로 구성되어 있다.
사전 학습된 RoBERTa 모델도 BERT와 유사한 구조를 가지고 있다.
Quotes
"사전 학습된 언어 모델(PLM)은 레이블이 지정된 데이터로 미세 조정할 때 자연어 이해 작업에서 최첨단 성능을 보이지만, 큰 크기로 인해 실제 응용 프로그램에 배포하기 어려운 문제가 있다."
"기존 가지치기 방법은 고정된 임계값을 사용하지만, 이 논문에서는 다목적 접근 방식을 제안하여 Pareto 최적 하위 네트워크 집합을 식별한다."