Centrala begrepp
고차원 데이터에서 선형 모델은 과적합과 데이터 암기에 취약하지만, 차별적 프라이버시를 사용하면 이를 해결할 수 있다. 이 논문은 고차원 차별적 프라이버시 선형 모델을 위한 최적화 기법들을 종합적으로 검토하고, 실험을 통해 강건하고 좌표 최적화된 알고리즘이 가장 좋은 성능을 보임을 입증한다.
Sammanfattning
이 논문은 고차원 데이터에서 차별적 프라이버시 선형 모델을 위한 최적화 기법들을 종합적으로 검토한다.
모델 선택: 특성 선택 단계와 최적화 단계를 분리하여 프라이버시를 보장하는 방법을 제안한다. 이 방법은 특성 선택이 안정적이라는 가정을 필요로 한다.
Frank-Wolfe: 다각형 제약 조건 하에서 정점을 향해 반복적으로 이동하는 방식으로 프라이버시를 보장한다. 손실 함수가 Lipschitz 연속이고 부드러우며, 해가 적은 반복으로 찾아질 수 있다는 가정이 필요하다.
압축 학습: 고차원 데이터를 저차원으로 압축한 후 최적화를 수행하는 방법. 손실 함수가 Lipschitz 연속이고 랜덤 행렬이 데이터의 중요 정보를 파괴하지 않는다는 가정이 필요하다.
ADMM: ADMM 알고리즘을 사용하여 목적 함수 교란을 통해 프라이버시를 보장한다. 광범위한 하이퍼파라미터 탐색이 가능하고 ADMM이 수렴한다는 가정이 필요하다.
임계값 기반: 반복적 경사 하드 임계값 기법을 사용하여 희소 가중치를 생성하고, 이를 gradient 교란 또는 출력 교란으로 프라이버시를 보장한다. 임계값 기법이 효율적으로 계수를 식별할 수 있어야 하며, 중요 정보가 노이즈에 압도되지 않아야 한다.
좌표 하강: 가중치의 한 성분만을 업데이트하는 탐욕적 좌표 하강을 사용하여 프라이버시를 보장한다. 탐욕적 좌표 하강을 효율적으로 구현할 수 있어야 하며, 각 특성의 Lipschitz 상수를 알고 있어야 한다.
거울 하강: 점진적으로 강화된 정규화를 사용하여 제약 최적화 문제를 해결한다. 여러 차례의 프라이버시 최적화를 수치적으로 안정적으로 결합할 수 있어야 한다.
실험 결과, 강건하고 좌표 최적화된 알고리즘이 가장 좋은 성능을 보였다. 이는 향후 연구에 시사점을 제공한다.
Statistik
선형 회귀 실험에서 HTSO(Heavy-Tailed Sparse Optimization) 알고리즘은 모든 ϵ 값에서 가장 좋은 성능을 보였다.
로지스틱 회귀 실험에서 GCD(Greedy Coordinate Descent) 알고리즘이 모든 ϵ 값에서 가장 좋은 성능을 보였다.