Core Concepts
연합 학습 환경에서 최소 분산 샘플링을 사용한 히스토그램 기반 XGBoost 모델은 정확도와 회귀 오류 측면에서 성능을 향상시킬 수 있다.
Abstract
이 논문에서는 연합 학습 환경에서 최소 분산 샘플링(MVS)을 사용한 히스토그램 기반 XGBoost 모델을 제안하고 평가한다.
먼저, 연합 XGBoost 모델의 기본 알고리즘을 설명한다. 이 모델은 각 클라이언트가 로컬 히스토그램을 구축하고 서버에 전송하면, 서버에서 이를 병합하여 트리를 성장시킨다.
연구진은 MVS를 이용한 샘플링 기법을 제안하였다. MVS는 이전 예측의 분산을 최소화하는 데이터 포인트를 선택하는 기법이다. 실험 결과, MVS를 사용한 연합 XGBoost 모델은 균일 샘플링이나 샘플링을 사용하지 않은 모델에 비해 정확도와 회귀 오류 측면에서 성능이 향상되었다. 또한 중앙 집중식 XGBoost와 비교해서도 절반의 경우에서 더 나은 성능을 보였다.
이 연구에서는 연합 학습을 위한 새로운 테이블 데이터셋 "FedTab"도 소개하였다. FedTab은 연합 학습 모델 평가를 위한 표준화된 벤치마크로 활용될 수 있다.
Stats
연합 XGBoost 모델은 균일 샘플링이나 샘플링을 사용하지 않은 모델에 비해 FEMNIST 데이터셋에서 정확도가 93.5%로 향상되었다.
연합 XGBoost 모델은 Insurance Premium Prediction 데이터셋에서 RMSE가 4429로 중앙 집중식 XGBoost보다 개선되었다.
연합 XGBoost 모델은 Heart Disease 데이터셋에서 AUC 점수가 0.922로 향상되었다.
Quotes
"연합 학습 환경에서 최소 분산 샘플링을 사용한 히스토그램 기반 XGBoost 모델은 정확도와 회귀 오류 측면에서 성능을 향상시킬 수 있다."
"연합 XGBoost 모델은 중앙 집중식 XGBoost와 비교해서도 절반의 경우에서 더 나은 성능을 보였다."