Core Concepts
LLM 모델의 가중치와 활성화 분포가 주로 t-분포를 따르므로, 이를 고려한 Student Float (SF4) 데이터 형식을 제안하여 기존 Normal Float (NF4) 대비 모델 정확성을 향상시킬 수 있다. 또한 이를 기반으로 E2M1과 APoT4 데이터 형식의 변형을 통해 정확성과 하드웨어 효율성의 균형을 달성할 수 있다.
Abstract
이 연구는 LLM 모델의 가중치와 활성화 분포를 대규모로 분석하여 대부분이 t-분포를 따르는 것을 발견했다. 이를 바탕으로 t-분포에 최적화된 Student Float (SF4) 데이터 형식을 제안했다. SF4는 기존 Normal Float (NF4)보다 모델 정확성을 높일 수 있다.
또한 SF4를 기준으로 E2M1과 APoT4 데이터 형식에 supernormal 지원을 추가하여 정확성과 하드웨어 효율성의 균형을 달성하는 방법을 제안했다. 이를 통해 다양한 LLM 모델과 벤치마크에서 정확성 향상과 하드웨어 오버헤드 감소를 확인했다.
실험 결과, SF4는 NF4 대비 LLaMA2-7B에서 0.76% 정확도 향상을 보였다. 또한 supernormal 지원을 추가한 E2M1과 APoT4는 기존 대비 각각 최대 2.19%, 0.96% 정확도 향상을 달성했다. 이와 함께 하드웨어 분석을 통해 이러한 정확성 향상이 칩 면적 오버헤드 1.22% 이내에서 가능함을 보였다.
Stats
LLaMA2-7B 모델에서 SF4는 NF4 대비 0.76% 정확도 향상을 보였다.
Phi-2 모델에서 supernormal 지원을 추가한 E2M1은 기존 대비 최대 2.19% 정확도 향상을 달성했다.
APoT4에 supernormal 지원을 추가하면 기존 대비 최대 0.96% 정확도 향상이 가능하다.
이러한 정확성 향상은 칩 면적 오버헤드 1.22% 이내에서 달성할 수 있다.
Quotes
"LLM 모델의 가중치와 활성화 분포가 주로 t-분포를 따르므로, 이를 고려한 Student Float (SF4) 데이터 형식을 제안하여 기존 Normal Float (NF4) 대비 모델 정확성을 향상시킬 수 있다."
"SF4를 기준으로 E2M1과 APoT4 데이터 형식에 supernormal 지원을 추가하여 정확성과 하드웨어 효율성의 균형을 달성할 수 있다."