Core Concepts
연합학습에서 전역 모델 학습의 수렴 속도를 높이기 위해 근사 전역 Hessian 정보를 활용하여 Newton 방식의 최적화를 수행함.
Abstract
연합학습(Federated Learning, FL)에서는 데이터가 분산되어 있어 중앙 집중식 학습에 비해 통신 오버헤드가 크다는 문제가 있다. 이를 해결하기 위해 저자들은 FAGH(Federated Learning with Approximated Global Hessian)이라는 Newton 최적화 기반의 새로운 FL 학습 방법을 제안한다.
FAGH의 핵심 내용은 다음과 같다:
각 클라이언트는 국소 gradient와 Hessian의 첫 번째 행을 서버에 전송한다.
서버는 이 정보를 활용하여 근사 전역 Hessian을 구하고, 이를 이용해 Newton 방식의 업데이트 방향을 직접 계산한다.
이를 통해 전역 모델 학습의 수렴 속도를 높일 수 있으며, 기존 Newton 기반 FL 알고리즘에 비해 클라이언트와 서버의 계산 및 메모리 복잡도를 크게 낮출 수 있다.
실험 결과, FAGH는 SCAFFOLD, FedGA, FedExP, GIANT, DONE 등 다른 최신 FL 학습 방법들에 비해 통신 라운드 수와 학습 시간을 크게 단축할 수 있음을 보여준다.
Stats
연합학습에서 전역 모델 학습을 위한 통신 비용은 O(2d)이다.
FedAvg의 국소 시간 복잡도는 O(d)이다.
FAGH의 국소 시간 및 공간 복잡도는 O(d)이다.
FAGH의 서버 공간 복잡도는 O(2d + 2d)이다.
FAGH의 서버 시간 복잡도는 O(d)이다.
Quotes
"연합학습에서 전역 모델 학습의 수렴 속도가 느리다는 문제가 있다."
"Newton 최적화 방법은 2차 수렴 속도를 가지므로 연합학습 가속화에 유용할 수 있다."
"FAGH는 전역 Hessian 정보를 효율적으로 활용하여 전역 모델 학습을 가속화할 수 있다."