핵심 개념
중앙 서버가 전체 사용자 집단의 보상을 최대화하기 위해 부분적인 분산 피드백을 활용하여 학습하는 문제를 다룬다. 이를 위해 차별적 프라이버시 보장 하에서 분산 선형 밴딧 알고리즘을 제안한다.
초록
이 논문은 중앙 서버가 전체 사용자 집단의 보상을 최대화하는 문제를 다룬다. 이를 위해 중앙 서버는 전체 사용자 집단에서 일부 사용자(클라이언트)를 선별하여 피드백을 수집하고, 이를 차별적 프라이버시 보장 하에서 집계하여 전역 모델을 학습한다.
구체적으로 다음과 같은 과정을 거친다:
중앙 서버는 각 라운드에서 행동을 선택하고, 선별된 클라이언트들의 지역 보상 피드백을 수집한다.
클라이언트들은 자신의 지역 보상 피드백을 차별적 프라이버시 보장 하에서 중앙 서버에 전송한다.
중앙 서버는 수집된 클라이언트 피드백을 집계하여 전역 모델 파라미터를 추정하고, 다음 라운드의 행동을 선택한다.
이 과정을 반복하면서 중앙 서버는 전체 사용자 집단의 누적 보상을 최대화하는 것을 목표로 한다. 저자들은 이를 위해 차별적 프라이버시 보장 분산 단계적 제거(DP-DPE) 알고리즘을 제안한다. DP-DPE는 중앙, 지역, 셔플 DP 모델 등 다양한 DP 모델에 통합적으로 적용될 수 있다. 저자들은 DP-DPE의 regret 및 통신 비용 성능을 분석하고, 실험을 통해 이를 검증한다.
통계
전체 사용자 집단의 보상은 ⟨θ∗, x⟩로 표현되며, θ∗는 알려지지 않은 전역 모델 파라미터이다.
각 사용자 u의 지역 보상은 ⟨θu, x⟩로 표현되며, θu는 알려지지 않은 지역 모델 파라미터이다.
각 사용자의 지역 보상은 1-sub-Gaussian 노이즈가 포함된다.
인용구
"중앙 서버가 전체 사용자 집단의 보상을 최대화하기 위해 전체 사용자 피드백을 수집하는 것은 비용이 많이 들고 프라이버시 문제가 발생할 수 있다."
"이를 해결하기 위해 중앙 서버가 일부 사용자(클라이언트)의 부분적인 피드백을 수집하고 이를 차별적 프라이버시 보장 하에서 집계하여 전역 모델을 학습하는 문제를 다룬다."