Core Concepts
모델 병렬 학습에서 활성화와 기울기를 동시에 압축하면 모델 수렴에 어떤 영향을 미치는지 실험적으로 평가하였다. 양자화와 TopK 압축기를 사용한 결과, 기울기가 활성화보다 압축에 더 민감하며 Top10% 압축이 수렴에 큰 영향을 주지 않는 것으로 나타났다. 또한 압축된 모델은 추론 시에도 압축을 적용해야 좋은 성능을 보였다.
Abstract
이 연구는 모델 병렬 학습에서 활성화와 기울기를 동시에 압축하는 방법을 실험적으로 평가하였다.
양자화 실험에서는 기울기가 활성화보다 압축에 더 민감하며, 기울기는 최소 6비트 이상, 활성화는 2-4비트로 압축해야 수렴이 잘 되는 것을 확인하였다. 또한 압축된 모델은 추론 시에도 압축을 적용해야 좋은 성능을 보였다.
TopK 압축 실험에서는 Top10% 압축이 수렴에 큰 영향을 주지 않는 것으로 나타났다. 하지만 압축된 모델은 추론 시에도 압축을 적용해야 좋은 성능을 보였다.
오차 피드백 기법을 적용한 실험에서는 오차 피드백이 모델 병렬 학습의 수렴을 개선하지 못했지만, 압축을 적용하지 않고도 추론 성능이 유사하게 나오는 것을 확인하였다.
AQ-SGD와 TopK 압축을 함께 사용한 실험에서는 TopK 압축이 30% 이상일 때 모델 성능이 크게 저하되는 것으로 나타났다.
Stats
기울기를 4비트로 압축하면 정확도가 65.11%로 크게 떨어짐
Top10% 압축에서 압축 적용 시 정확도 91.87%, 미적용 시 75.89%로 큰 차이 발생
AQ-SGD와 Top10% 압축 조합에서 정확도가 84.16%로 저하됨
Quotes
"기울기는 활성화보다 압축에 더 민감하다."
"Top10% 압축이 수렴에 큰 영향을 주지 않는다."
"압축된 모델은 추론 시에도 압축을 적용해야 좋은 성능을 보인다."