핵심 개념
탐지 불가능한 백도어가 존재하더라도 머신러닝 모델에서 백도어를 제거하는 것이 가능하며, 이는 랜덤 자기-축소성 개념에서 영감을 받은 기술을 사용하여 수행할 수 있습니다.
초록
ML 모델의 암묵적 방어: 탐지 없이 백도어 제거
본 연구는 탐지가 어렵거나 불가능한 백도어가 포함된 머신러닝 모델에서 백도어를 제거하는 방법을 모색합니다.
머신러닝 모델의 광범위한 활용과 함께, 악의적인 공격자가 모델에 탐지하기 어려운 백도어를 심어 은밀하게 제어하는 공격이 증가하고 있습니다. 기존의 백도어 탐지 기술은 불완전하며,
Goldwasser, Kim, Vaikuntanathan, and Zamir (2022)의 연구는 암호화적으로 탐지가 불가능한 백도어가 존재할 수 있음을 보여주었습니다.