이 논문은 BERT 모델의 다양한 구성 요소 중에서 어떤 것이 미세 조정 과정에서 가장 중요한지를 분석했다.
먼저, 다양한 GLUE 작업에 대해 BERT 모델을 미세 조정한 결과, LayerNorm 구성 요소가 다른 구성 요소에 비해 가장 큰 변화를 겪는다는 것을 발견했다. 이는 Kovaleva et al. (2021)의 연구 결과와도 일치한다.
이어서 Fisher 정보를 사용하여 BERT 모델의 구성 요소 중 가장 중요한 것이 LayerNorm임을 확인했다.
그 다음으로, LayerNorm만 조정하는 방식으로 미세 조정을 수행한 결과, 기존의 완전 미세 조정 방식이나 다른 파라미터 효율적 미세 조정 방식과 유사한 성능을 보였다. 특히 LayerNorm의 일부만 조정해도 성능 저하가 크지 않음을 확인했다.
이러한 결과는 BERT와 같은 대규모 언어 모델의 미세 조정 시 LayerNorm이 핵심 구성 요소라는 것을 보여준다. 따라서 LayerNorm만 선택적으로 조정하면 계산 비용을 크게 줄일 수 있다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies