Core Concepts
표현력 있는 손실 함수를 사용하면 정확도와 검증 가능한 강건성 사이의 최적의 균형을 달성할 수 있다.
Abstract
이 논문은 신경망의 검증 가능한 적대적 강건성을 달성하기 위한 새로운 접근법을 제안한다. 기존 연구에서는 적대적 훈련과 네트워크 상한 계산을 결합하여 강건성을 달성하려 했지만, 이 방법은 정확도와 강건성 사이의 균형을 잡기 어려웠다.
저자들은 표현력 있는 손실 함수라는 개념을 제안한다. 이는 적대적 손실과 검증 가능한 손실 사이를 단일 매개변수로 조절할 수 있는 손실 함수이다. 저자들은 이러한 표현력이 정확도와 강건성 사이의 최적의 균형을 달성하는 데 핵심적이라고 주장한다.
저자들은 세 가지 간단한 표현력 있는 손실 함수를 제안한다: CC-IBP, MTL-IBP, Exp-IBP. 이 손실 함수들은 적대적 손실과 IBP 상한 사이의 볼록 조합을 사용한다. 실험 결과, 이 세 가지 손실 함수 모두 기존 연구 결과를 뛰어넘는 성능을 보였다. 이는 표현력이 핵심적이며, 구체적인 손실 함수 형태보다는 표현력이 더 중요함을 시사한다.
또한 저자들은 상한 계산의 정확도와 성능 간의 관계를 분석했다. 일반적인 가정과 달리, 상한 계산의 정확도가 반드시 더 나은 성능으로 이어지지는 않는다는 것을 보였다.
Stats
적대적 공격에 대한 정확도는 CIFAR-10에서 ϵ = 2/255일 때 80.61%, ϵ = 8/255일 때 53.97%이다.
검증 가능한 강건 정확도는 CIFAR-10에서 ϵ = 2/255일 때 63.78%, ϵ = 8/255일 때 35.27%이다.
TinyImageNet에서 표준 정확도는 38.71%, 검증 가능한 강건 정확도는 26.39%이다.
ImageNet64에서 표준 정확도는 22.73%, 검증 가능한 강건 정확도는 13.30%이다.
Quotes
"표현력 있는 손실 함수를 사용하면 정확도와 검증 가능한 강건성 사이의 최적의 균형을 달성할 수 있다."
"일반적인 가정과 달리, 상한 계산의 정확도가 반드시 더 나은 성능으로 이어지지는 않는다."