이 논문은 질의 기반 공격에 대한 강건성과 정확도 사이의 균형을 효과적으로 달성하는 방법을 제안한다. 기존 방어 기법들은 강건성 향상을 위해 정확도를 크게 낮추는 문제가 있었다. 이 연구에서는 입력의 신뢰도(confidence)에 따라 방어 기법을 선택적으로 적용하는 방식을 제안한다. 즉, 신뢰도가 낮은 입력에 대해서만 방어 기법을 활성화하여 강건성을 높이고, 신뢰도가 높은 입력에 대해서는 방어 기법을 적용하지 않아 정확도 저하를 최소화한다. 이 접근법은 학습 과정과 독립적이며 이론적으로 뒷받침된다. 실험 결과, CIFAR-10, CIFAR-100, ImageNet 데이터셋에서 기존 방어 기법 대비 강건성과 정확도의 균형을 크게 개선할 수 있음을 확인했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문