핵심 개념
본 논문에서는 클라이언트와 서버 간에 그레이디언트 또는 모델 정보를 공유하지 않고도 분산 학습을 가능하게 하는 BlackFed라는 새로운 연합 학습 프레임워크를 제안합니다.
초록
BlackFed: 그레이디언트 및 모델 정보 공유 없는 의미론적 분할을 위한 연합 학습
인공지능 분야에서 데이터 중심 방법론이 널리 사용됨에 따라 전 세계적으로 데이터 수집 및 큐레이션이 급증했습니다. 이는 훈련에 상당한 양의 데이터가 필요한 AI 모델의 개발로 이어졌습니다. 연합 학습(FL)은 전 세계 여러 센터에서 수집한 데이터를 효과적으로 활용하여 이러한 모델을 훈련하기 위한 실행 가능한 접근 방식으로 개발되었습니다. FL을 통해 여러 기관이 협력하여 더 많은 데이터를 개별적으로 수집해야 하는 부담을 줄이면서 모든 기관에서 학습하는 공동 모델을 구축할 수 있습니다. 그러나 데이터 배포의 불균형과 데이터 프라이버시 보호의 필요성으로 인해 여러 기관 간의 협업은 쉽지 않은 과제입니다. 따라서 FL은 원시 데이터를 교환하지 않고도 모든 참여 기관의 데이터에서 잘 수행되는 공유 모델을 공동으로 학습하는 것을 목표로 합니다.
기존의 FL 방법은 모델 가중치 또는 그레이디언트를 전송하기 때문에 "화이트박스"로 간주될 수 있습니다. 그러나 최근 연구에서는 이러한 기술이 참여 센터의 교육 데이터를 재현할 수 있는 공격에 취약하여 FL의 개인 정보 보존 특성을 손상시킬 수 있음을 보여주었습니다. 이러한 공격은 그레이디언트 반전 또는 모델 아키텍처 및 가중치 조정과 같은 방법을 사용합니다.
본 논문에서는 서버와 클라이언트 간에 그레이디언트 전송이 필요하지 않고 동시에 클라이언트 모델 아키텍처에 대한 지식을 서버에 전달하지 않아 이러한 공격에 필요한 조건을 방지하는 BlackFed라는 새로운 접근 방식을 제안합니다. 이는 분할 신경망(split-nn)을 사용하여 분산 학습 문제로 FL 학습 문제를 공식화하고 훈련을 위해 1차 및 0차 최적화 기술을 결합하여 수행됩니다.
BlackFed는 분할 신경망을 사용하여 분산 학습 문제를 모델링합니다. 이 경우 각 클라이언트는 Θi로 매개변수화된 함수 f i : RH×W ×C →RH′×W ′×C′를 학습합니다. 마찬가지로 글로벌 서버는 Φ로 매개변수화된 함수 g : RH′×W ′×C′ →RH×W ×Nc를 학습합니다. 따라서 주어진 센터에 대한 순방향 패스는 다음과 같습니다.
ˆyi j = g(f(xi j; Θi); Φ),
여기서 ˆyi j는 예측된 분할 맵을 나타냅니다. 따라서 주어진 클라이언트의 목적 함수는 다음과 같습니다.
arg min Θi,Φ Li, i ∈{1, 2, ..., N} = 1 ni ni Σj=1 l(ˆyi j, yi j; Θi, Φ).
기존 FL 문헌에서와 같이 우리 접근 방식의 목표는 훈련 후 모든 클라이언트가 서로에게서 이익을 얻을 수 있도록 하는 것입니다. 따라서 평가 중에 주어진 클라이언트가 주어지면 다른 클라이언트의 데이터뿐만 아니라 자체 데이터에서도 좋은 성능을 발휘하여 우수한 일반화를 보여주는 것을 목표로 합니다. 보다 구체적으로, 다음과 같이 데이터와 클라이언트의 조합을 최적화하려고 합니다.
min Lik, i ∈{1, 2, ..., N} , k ∈{1, 2, ..., N} = 1 ni ni Σj=1 l(ˆyi j, yi j; Θk, Φ).
이 방정식을 최적화하는 한 가지 방법은 라운드 로빈 방식으로 모든 클라이언트를 처리하는 것입니다. 여기에는 클라이언트 선택, 방정식 4에 정의된 대로 순방향 패스 수행, 방정식 5에 정의된 클라이언트 손실 함수를 사용하여 서버 및 클라이언트를 업데이트하기 위해 역전파 수행이 포함됩니다. 라운드 로빈 방식으로 이 작업을 여러 번 수행하면 서버가 모든 클라이언트 소스에서 학습할 수 있으므로 전반적인 성능이 향상됩니다. 우리는 이 방법을 "화이트박스 라운드 로빈 FL"이라고 하며 문헌에 있는 기존 방법과 유사합니다. 그러나 최근 연구에서는 서버와 클라이언트 간의 그레이디언트 전송이 포함된 이러한 방법이 교육 데이터를 재생성하는 데 사용되어 FL의 개인 정보 보존 원칙을 손상시킬 수 있음을 보여주었습니다. 따라서 방정식 5에서 서버에서 클라이언트로 그라데이션이 다시 흐를 수 없다는 제약 조건을 하나 더 추가합니다.
BlackFed 알고리즘
그라데이션트를 사용하지 않고 클라이언트를 최적화하기 위해 그라데이션트 보정을 사용한 동시 섭동 확률적 근사(SPSA-GC)라는 ZOO 방법을 사용합니다. 이 방법은 클라이언트 모델의 가중치를 약간 섭동하고 섭동으로 인한 손실 함수의 변화에 따라 양측 그라데이션트를 근사화하는 것을 포함합니다. 그러나 이 방법은 사전 훈련된 기초 모델의 블랙박스 적응을 수행하기 위해 개발되었으므로 서버 모델이 좋은 가중치로 초기화될 것으로 예상하지만 우리의 공식에서는 그렇지 않아 중요하지 않습니다. 이를 극복하기 위해 방정식 5의 최적화 문제를 다음과 같이 두 가지 최적화 문제로 분해하는 교대 최적화 기술을 반복적으로 사용할 것을 제안합니다.
arg min Θi Li, i ∈{1, 2, ..., n} = 1 ni ni Σj=1 l(ˆyi j, yi j; Θi|Φ),
arg min Φ Li, i ∈{1, 2, ..., n} = 1 ni ni Σj=1 l(ˆyi j, yi j; Φ|Θi).
훈련하는 동안 먼저 라운드 로빈 정책을 사용하여 클라이언트를 선택합니다. 다음으로 서버 가중치를 고정한 상태에서 SPSA-GC를 사용하여 몇 번의 반복 동안 클라이언트 가중치를 훈련합니다. 다음으로 클라이언트 가중치를 수정하고 1차 옵티마이저(즉, Adam-W)를 사용하여 몇 번의 반복 동안 서버를 최적화합니다. 이 프로세스는 여러 번 반복됩니다. 클라이언트에 대한 추론 중에 클라이언트 및 서버의 최종 가중치를 사용하여 방정식 4에 설명된 대로 순방향 패스를 실행하기만 하면 됩니다.
치명적인 망각의 영향 감소
서버의 모델은 모든 클라이언트 간에 공유되고 라운드 로빈 방식으로 업데이트되기 때문에 주어진 클라이언트의 데이터로 훈련하면 이전 클라이언트에 대한 패턴을 잊어버릴 수 있습니다. 이 현상을 종종 치명적인 망각이라고 합니다. 이 효과는 특히 클라이언트 수가 증가하거나 클라이언트 간의 데이터 분포에 큰 변화가 있는 경우 BlackFed v1에서 관찰됩니다. 이로 인해 알고리즘은 특정 클라이언트에서는 잘 수행되고 나머지 클라이언트에서는 제대로 수행되지 않습니다. 치명적인 망각의 영향을 줄이기 위해 알고리즘 1을 사용한 훈련 중에 간단한 추가 단계를 제안합니다. 훈련 중에 주어진 클라이언트에 대한 서버 가중치를 업데이트한 후 업데이트된 서버 모델의 가중치를 클라이언트의 인덱스로 인덱싱된 해시맵에 저장합니다. 주어진 클라이언트에 대한 추론 중에 클라이언트 모델의 최신 가중치와 서버 모델의 인덱싱된 가중치를 사용하여 순방향 패스를 수행합니다. 서버 상태는 추론 중에만 해시맵에서 로드됩니다. 훈련 중에 서버는 여전히 모든 클라이언트의 데이터로부터 이점을 얻고 가중치와 해시맵을 업데이트합니다. 우리는 이 방법을 BlackFed v2라고 합니다.