Core Concepts
연합 학습 환경에서 데이터 이질성과 프라이버시 문제를 해결하기 위해 차등 프라이버시 기반의 연합 전이 학습 프레임워크를 제안하고, 이를 통해 다양한 통계 문제에서의 최적 성능을 달성할 수 있음을 보여줌.
Abstract
이 논문은 연합 학습 환경에서 데이터 이질성과 프라이버시 문제를 해결하기 위한 차등 프라이버시 기반의 연합 전이 학습 프레임워크를 제안한다.
먼저, 연합 전이 학습 (FTL) 문제 설정을 소개하고, 이를 위한 새로운 개념인 연합 차등 프라이버시 (FDP) 제약을 정의한다. FDP 제약은 각 데이터 사이트의 프라이버시를 보장하면서도 중앙 서버에 대한 신뢰를 요구하지 않는다.
이후 세 가지 통계 문제 - 단변량 평균 추정, 저차원 선형 회귀, 고차원 선형 회귀 - 에 대해 FDP 하에서의 최소 최대 위험을 분석한다. 단변량 평균 추정과 저차원 선형 회귀 문제에서는 최적의 속도를 달성하는 알고리즘을 제안하고 이에 대한 이론적 보장을 제공한다. 고차원 선형 회귀 문제의 경우 상한 bound를 제시하고 최적성에 대한 논의를 진행한다.
분석 결과, FDP는 기존의 중앙 차등 프라이버시와 지역 차등 프라이버시 사이의 중간 모델로 볼 수 있으며, FDP 하에서의 속도는 이 두 모델의 속도를 보간하는 형태를 보인다. 또한 데이터 이질성과 프라이버시 제약이 통계 추정 문제에 미치는 근본적인 비용을 정량화한다.
Stats
단변량 평균 추정 문제에서 최소 최대 위험은 1/√n + 1/(nϵ) 과 h + 1/√(|A|n) + 1/(ϵ√|A|n) 중 작은 값이다.
저차원 선형 회귀 문제에서 최소 최대 위험은 √d/n + d/(nϵ) 과 h + √d/(|A|n) + d/(ϵ√|A|n) 중 작은 값이다.
여기서 n은 각 데이터셋의 표본 크기, h는 타겟 데이터셋과 유사한 소스 데이터셋들 간의 차이 정도, |A|는 유사한 소스 데이터셋의 개수, ϵ은 프라이버시 매개변수이다.
Quotes
"연합 학습은 데이터 이질성과 프라이버시가 두 가지 주요 과제로 대두되고 있다."
"차등 프라이버시는 널리 채택되는 프라이버시 보장 개념이다."
"FDP는 중앙 차등 프라이버시와 지역 차등 프라이버시 사이의 중간 모델을 제공한다."