핵심 개념
FedRA는 연방 클라이언트의 다양한 계산 능력을 활용하여 기반 모델을 효과적으로 미세 조정할 수 있는 알고리즘이다.
초록
이 논문은 연방 학습(Federated Learning)에서 기반 모델(Foundation Model)의 미세 조정 문제를 다룬다. 기존의 연방 학습 알고리즘은 전체 모델 구조를 학습하는데 어려움이 있었다. 이에 저자들은 FedRA라는 새로운 알고리즘을 제안한다.
FedRA의 핵심 아이디어는 다음과 같다:
- 각 통신 라운드에서 서버는 무작위 할당 행렬을 생성하여 클라이언트에게 모델의 일부 계층을 할당한다.
- 자원 제한 클라이언트는 할당된 계층만 미세 조정하고, 서버는 이를 취합하여 전체 모델을 업데이트한다.
- 이를 통해 각 모델 계층이 모든 클라이언트의 데이터와 계산 능력을 활용할 수 있어 성능 향상이 가능하다.
저자들은 ViT와 MLP-Mixer 모델을 사용하여 DomainNet과 NICO++ 데이터셋에서 실험을 수행했다. 그 결과 FedRA가 기존 방법들에 비해 월등한 성능을 보였다. 특히 클라이언트의 계산 능력이 매우 다양한 극단적인 상황에서도 FedRA가 우수한 성능을 발휘했다.
통계
각 클라이언트의 모델 깊이는 12, 10, 8, 6, 4, 3 층으로 다양하다.
전체 모델의 성능은 ViT 모델에서 77.17%, MLP-Mixer 모델에서 67.57%이다.
인용구
"FedRA는 무작위 할당 전략을 통해 기능 불균형 문제를 해결할 수 있다."
"FedRA는 어떤 클라이언트도 전체 모델을 지원할 수 없는 상황에서도 작동할 수 있는 인상적인 장점을 가지고 있다."