المفاهيم الأساسية
확산 모델은 인간 시각 체계에 필수적인 강건한 특징을 의도적으로 제거하는 텍스트 프롬프트를 통해 DNN 모델에 대한 자연 공격 능력을 가지고 있다.
الملخص
이 연구는 확산 모델의 새로운 보안 위협인 자연 탈노이즈 확산(NDD) 공격을 식별했다. NDD 공격은 확산 모델이 인간 시각 체계에 필수적인 강건한 특징을 제거하는 간단한 텍스트 프롬프트를 통해 모델 독립적이고 전이 가능한 적대적 공격을 생성할 수 있다는 것을 보여준다.
이를 위해 연구진은 확산 모델의 자연 공격 능력을 체계적으로 평가하기 위한 대규모 데이터셋인 NDDA 데이터셋을 구축했다. NDDA 데이터셋은 3개의 확산 모델과 3개의 객체 클래스에 대해 강건한 특징(모양, 색상, 텍스트, 패턴)을 부분적 또는 완전히 제거하거나 변경한 이미지를 포함한다.
연구 결과, NDD 공격은 88%의 공격 성공률을 달성할 수 있으며 93%의 사람들에게 스텔스한 것으로 나타났다. 또한 비강건 특징이 확산 모델의 자연 공격 능력에 중요한 역할을 한다는 것을 확인했다. 마지막으로 NDD 공격이 실제 자율 주행 차량에 대해서도 73%의 공격 성공률을 보인다는 것을 실험적으로 입증했다.
이 연구는 확산 모델의 자연 공격 능력에 대한 위험을 인식하고 강건한 DNN 모델 개발을 위한 추가 연구를 촉진하는 데 도움이 될 것으로 기대된다.
الإحصائيات
대부분의 객체 탐지기가 강건한 특징이 제거된 이미지에서도 여전히 객체를 탐지하고 있다.
예를 들어, 정지 표지판 이미지에서 모든 강건한 특징이 제거되었음에도 불구하고 32%가 여전히 정지 표지판으로 탐지되었다.
이는 확산 모델이 인간에게 인지되지 않는 특징을 학습하여 DNN 모델에 일반화되는 것을 보여준다.
اقتباسات
"확산 모델은 인간 시각 체계에 필수적인 강건한 특징을 의도적으로 제거하는 텍스트 프롬프트를 통해 DNN 모델에 대한 자연 공격 능력을 가지고 있다."
"NDD 공격은 88%의 공격 성공률을 달성할 수 있으며 93%의 사람들에게 스텔스한 것으로 나타났다."
"비강건 특징이 확산 모델의 자연 공격 능력에 중요한 역할을 한다."