이 연구는 그림자 모델의 정렬 불일치 원인을 체계적으로 분석하고, 모델 융합 문헌에서 개발된 재정렬 기술을 그림자 모델 컨텍스트로 확장하여 적용하였다.
분석 결과, 그림자 모델과 타깃 모델의 가중치 초기화가 다른 것이 주요 원인으로 나타났다. 반면 다른 요인들(데이터셋, 배치 순서, 드롭아웃)은 큰 영향을 미치지 않았다.
재정렬 기술을 적용하면 그림자 모델과 타깃 모델 간 정렬이 크게 개선되었다. 이를 바탕으로 백박스 회원 추론 공격을 평가한 결과, 내부 레이어 활성화 기반 공격은 정렬 불일치에 크게 영향받지만, 기울기 기반 공격은 때때로만 영향을 받는 것으로 나타났다. 재정렬을 통해 전자의 성능을 크게 개선할 수 있었고, 후자의 성능도 일부 개선할 수 있었다.
결과적으로 이 연구는 온디바이스 배포가 공격 표면을 확대하고, 새로 확보한 정보를 활용해 더 강력한 공격을 수행할 수 있음을 보여준다. 또한 화이트박스 환경에서 프라이버시 위험 평가 시 타깃 모델 아키텍처의 대칭성을 고려해야 하며, 재정렬 기술이 이를 위한 간단하고 비용 효율적인 수단이 될 수 있음을 시사한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询