Core Concepts
밴딧 알고리즘에 집중 차등 프라이버시를 적용하여 개인정보를 보호하면서도 최소의 손실로 최적의 성능을 달성할 수 있다.
Abstract
이 논문은 밴딧 알고리즘에 집중 차등 프라이버시(zCDP)를 적용하는 방법을 제안합니다. 밴딧 알고리즘은 순차적 학습과 현대 추천 시스템의 이론적 기반이 되지만, 사용자 데이터를 활용하기 때문에 개인정보 보호가 중요한 문제입니다.
논문에서는 먼저 밴딧에 차등 프라이버시를 적용하는 다양한 방법을 비교 분석합니다. 순수 차등 프라이버시와 달리, 근사 차등 프라이버시와 집중 차등 프라이버시에서는 입력 데이터와 상호작용 프로토콜을 어떻게 정의하느냐에 따라 차이가 발생합니다.
이후 세 가지 밴딧 문제 설정(유한 암 밴딧, 선형 밴딧, 선형 컨텍스트 밴딧)에 대해 각각 AdaC-UCB, AdaC-GOPE, AdaC-OFUL 알고리즘을 제안합니다. 이 알고리즘들은 가우시안 메커니즘과 적응적 에피소드 기법을 사용하여 프라이버시와 효용의 균형을 달성합니다.
논문에서는 이 세 알고리즘의 후회 상한을 분석하여, 집중 차등 프라이버시를 만족시키는 데 드는 비용이 비교적 작다는 것을 보여줍니다. 또한 유한 암 밴딧과 선형 밴딧에 대한 최소 최대 후회 하한을 증명하여, 집중 차등 프라이버시를 만족시키는 알고리즘의 최적성을 입증합니다.
마지막으로 실험을 통해 이론적 결과를 검증합니다.
Stats
밴딧 알고리즘은 T 시간 동안 K개의 알 수 없는 보상 분포 {νa}a∈[K]에서 선택한 행동 순서에 따른 누적 보상을 최대화하는 것을 목표로 합니다.
알고리즘 π의 후회는 최적 보상과 알고리즘의 누적 보상 사이의 차이를 나타냅니다.
Quotes
"Bandits serve as the theoretical foundation of sequential learning and an algorithmic foundation of modern recommender systems. However, recommender systems often rely on user-sensitive data, making privacy a critical concern."
"The goal of the policy is to reveal the sequence of actions while protecting the privacy of the users and achieving minimal regret."