Core Concepts
현대 심층 신경망의 일반화 능력 향상을 위해 랜덤 가중치 섭동 기반 접근법을 개선하여 더 효율적이고 우수한 성능을 달성하였다.
Abstract
이 논문은 현대 심층 신경망의 일반화 능력 향상을 위한 방법으로 랜덤 가중치 섭동(RWP)을 다룬다.
기존 RWP 방법은 계산 효율성은 높지만 성능이 adversarial weight perturbation(AWP) 기반 방법에 비해 떨어지는 문제가 있었다.
이 논문에서는 RWP의 일반화 성능과 수렴 속도 간의 trade-off를 분석하고, 이를 해결하기 위한 두 가지 개선 방법을 제안한다.
원래 손실 함수와 섭동 손실 함수를 혼합한 mixed-RWP(m-RWP) 방법을 제안하여 수렴 속도를 개선하고 동시에 더 큰 섭동 크기를 허용할 수 있게 하였다.
과거 경사도 정보를 활용하여 섭동을 적응적으로 생성하는 Adaptive RWP(ARWP) 방법을 제안하였다.
실험 결과, 제안한 m-ARWP 방법은 AWP 기반 방법과 비교하여 계산 효율성은 2배 높으면서도 성능은 동등하거나 더 우수한 것으로 나타났다.
특히 대규모 데이터셋에서 제안 방법의 효율성이 두드러졌다.
Stats
제안한 m-ARWP 방법은 CIFAR-100 데이터셋에서 ResNet-18 모델 기준 81.38%의 정확도를 달성하여 SGD 대비 3.28% 향상되었다.
ImageNet 데이터셋에서 ResNet-50 모델 기준 m-ARWP는 78.04%의 정확도를 달성하여 SGD 대비 1.42% 향상되었다.
Quotes
"RWP 요구되는 섭동 크기는 AWP에 비해 약 2배 더 크다."
"m-RWP는 원래 손실 함수와 섭동 손실 함수를 혼합하여 수렴 속도를 개선하고 더 큰 섭동 크기를 허용할 수 있게 한다."
"m-ARWP는 AWP와 비교하여 계산 효율성은 2배 높으면서도 성능은 동등하거나 더 우수하다."