핵심 개념
언어 모델 압축 방법에 따라 하위 그룹 성능이 달라지며, 모델 크기만으로는 하위 그룹 강건성을 설명할 수 없다.
초록
이 연구는 BERT 언어 모델에 대해 18가지 다른 압축 방법과 설정을 적용하여 하위 그룹 강건성을 조사했다.
주요 결과는 다음과 같다:
- 최악 그룹 성능은 모델 크기뿐만 아니라 사용된 압축 방법에 따라 달라진다.
- 모델 압축이 항상 소수 그룹의 성능을 악화시키는 것은 아니다. 일부 데이터셋에서는 오히려 소수 그룹의 성능이 향상되었다.
- 동일한 매개변수 수를 가진 압축 모델들 간에도 압축 방법의 차이로 인해 성능 차이가 발생할 수 있다.
이 분석은 언어 모델 압축이 하위 그룹 강건성에 미치는 영향을 더 깊이 있게 이해하는 데 기여한다.
통계
소수 그룹의 성능이 저하되는 경우, 대부분의 압축 모델에서 최악 그룹 정확도가 감소한다.
소수 그룹의 성능이 향상되는 경우, 대부분의 압축 모델에서 최악 그룹 정확도가 향상된다.
인용구
"압축 방법에 따라 동일한 매개변수 수를 가진 모델들 간에도 성능 차이가 발생할 수 있다."
"모델 압축이 항상 소수 그룹의 성능을 악화시키는 것은 아니다."