Core Concepts
랜덤 마스킹 기법을 통해 매우 적은 수의 매개변수로도 기존 파라미터 효율적 미세조정 기법들과 비슷한 성능을 달성할 수 있다.
Abstract
이 논문은 파라미터 효율적 미세조정(PEFT) 기법의 성능 한계를 탐구한다. 특히 랜덤 마스킹이라는 매우 간단한 PEFT 기법을 제안하고, 이 기법이 기존 PEFT 기법들과 비슷한 성능을 보이면서도 훨씬 적은 수의 매개변수를 사용한다는 것을 보여준다.
실험 결과, 랜덤 마스킹은 적절한 학습률을 사용할 경우 SuperGLUE 벤치마크에서 기존 PEFT 기법들과 유사한 성능을 달성할 수 있다. 특히 매개변수 수가 매우 적은 경우(전체 매개변수의 0.001%)에도 상당한 성능을 보인다. 이는 사전 학습된 언어 모델의 표현력이 매우 크다는 것을 시사한다.
논문은 이러한 랜덤 마스킹의 성공 요인을 실험적, 이론적으로 분석한다. 랜덤 마스킹은 손실 함수의 경사도를 완만하게 만들어 큰 학습률을 허용하며, 이로 인해 더 멀리 떨어진 해를 찾을 수 있다. 이는 사전 학습된 모델의 높은 표현력과 결합하여 랜덤 마스킹의 성공을 가능하게 한다.
Stats
랜덤 마스킹을 사용할 경우 전체 매개변수의 0.001%만 학습해도 상당한 성능을 달성할 수 있다.
랜덤 마스킹의 최적 학습률은 매개변수 수가 적을수록 더 크다. 예를 들어 매개변수 수가 전체의 0.001%일 때 최적 학습률은 0.1이다.
Quotes
"Random Masking provides a convenient way for us to reduce the trainable parameters beyond the current limit, and moreover, it has a simple design that incorporates nearly no inductive bias about the model architecture or the task."
"Remarkably, our experiments show that with as little as 0.001% of the parameters being trainable, Random Masking can still achieve a non-trivial accuracy."