Core Concepts
양자 선형 해법 알고리즘을 활용하여 뉴턴의 경사 하강법 기반 신경망 학습을 가속화하는 하이브리드 스케줄링 기법
Abstract
이 논문은 뉴턴의 경사 하강법을 사용한 신경망 학습을 가속화하기 위한 하이브리드 양자-고전 스케줄링 기법인 Q-Newton을 제안한다.
뉴턴의 경사 하강법은 2차 미분 정보를 활용하여 최적화 성능을 높일 수 있지만, 행렬 역행렬 계산의 높은 계산 비용으로 인해 실용적이지 않다. 이를 해결하기 위해 Q-Newton은 양자 선형 해법 알고리즘(QLSA)을 활용하여 행렬 역행렬 계산을 가속화한다.
Q-Newton은 다음과 같은 핵심 구성 요소를 포함한다:
헤시안 행렬의 상태 수를 효과적으로 추정하는 경량 추정기
양자 오라클 희소성을 높이고 상태 수를 낮추는 정규화 기법
고전 및 양자 행렬 역행렬 솔버 간 동적 스케줄링 모듈
실험 결과, Q-Newton은 SGD, 순수 고전 및 순수 양자 뉴턴의 경사 하강법 대비 우수한 성능을 보였다. 또한 헤시안 행렬의 희소성을 높여 90% 이상의 시간 비용 절감을 달성할 수 있었다. 이를 통해 Q-Newton은 미래 양자 컴퓨팅 기술 발전을 위한 야심찬 목표를 제시한다.
Stats
뉴턴의 경사 하강법을 사용한 BERT 모델 학습 시 SGD 대비 75% 더 빠른 수렴 속도를 보였다.
뉴턴의 경사 하강법을 사용한 Mistral 모델 학습 시 SGD 대비 67% 더 빠른 수렴 속도를 보였다.
헤시안 행렬의 40% 이상 희소화까지는 성능 저하가 거의 없었다.
헤시안 행렬의 상태 수를 103배 낮출 수 있었으며, 이때 성능 저하는 거의 없었다.
Quotes
"뉴턴의 경사 하강법은 2차 미분 정보를 활용하여 최적화 성능을 높일 수 있지만, 행렬 역행렬 계산의 높은 계산 비용으로 인해 실용적이지 않다."
"양자 선형 해법 알고리즘(QLSA)은 행렬 역행렬 계산을 지수적으로 가속할 수 있는 유망한 접근법이다."
"Q-Newton은 양자 및 고전 행렬 역행렬 솔버 간 동적 스케줄링을 통해 뉴턴의 경사 하강법 기반 신경망 학습을 가속화한다."