이 논문은 대형 언어 모델의 크기 증가와 이에 따른 추론 비용 문제를 다룬다. 저자는 모델 압축 기법을 통해 성능 저하 없이 추론 효율성을 높일 수 있는 방법을 제안한다.
첫째, 모델 층을 전체적으로 제거하는 실험을 진행했다. 이는 초기 층이 더 중요하다는 기존 연구 결과를 바탕으로 한 것이다.
둘째, 트랜스포머 모델의 두 가지 하위 층(어텐션, 피드포워드)을 선택적으로 제거하는 실험을 진행했다. 이는 두 하위 층의 중요도가 다를 것이라는 가정에 기반한다.
셋째, 연속된 층 간 출력 벡터의 유사도를 기준으로 제거할 층을 선별하는 실험을 진행했다. 이는 유사도가 낮은 층은 중복되는 정보를 담고 있을 것이라는 직관에 기반한다.
실험 결과, 후반부 어텐션 하위 층을 제거하는 것이 가장 효과적이었다. 이는 이 층들이 실제로 중복되는 정보를 담고 있어 불필요한 계산을 수행하고 있음을 시사한다. 이러한 발견은 향후 대형 언어 모델의 추론 효율성 향상을 위한 중요한 단서가 될 것으로 보인다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询