Temel Kavramlar
이 논문은 지난 10년간 이미지 인식 모델을 대상으로 한 적대적 공격 기술의 발전 과정을 포괄적으로 검토하고, 전통적인 공격 방식과 최신 대규모 비전-언어 모델(LVLM) 공격 방식을 비교 분석하여 미래 연구 방향을 제시합니다.
Özet
지난 10년간 비전 작업에 대한 적대적 공격: 설문 조사 및 미래 연구 방향 제시
본 연구 논문은 머신 러닝 추론 과정에서 모델의 가용성과 무결성을 저해하기 위해 입력 데이터를 조작하는 적대적 공격에 대한 포괄적인 분석을 제공합니다. 특히, 얼굴 인식, 보행자 감지, 자율 주행, 자동 결제 시스템과 같은 중요 애플리케이션에서 발생하는 적대적 공격의 위험성을 강조하며 시스템 보안의 중요성을 제시합니다.
본 논문은 기존 연구들이 공격 분류에 집중하고 포괄적이고 심층적인 분석이 부족하다는 점을 지적하며, 적대성, 전이성, 일반화에 대한 통합적 이해, 기존 방법에 대한 자세한 평가, 동기 기반 공격 분류, 전통적 공격과 LVLM 공격에 대한 통합적 관점 제시의 필요성을 제기합니다. 이러한 필요성을 충족시키기 위해 본 논문은 전통적인 적대적 공격과 LVLM 적대적 공격에 대한 철저한 요약을 제공하고, 그들의 연결 고리와 차이점을 강조하며, 미래 연구를 위한 실행 가능한 통찰력을 제공합니다.
적대성
적대적 예제(AE)는 모델의 오류를 유발하는 속성을 의미하며, 본 논문에서는 이러한 AE가 존재하는 이유를 다음과 같이 요약합니다.
신경망의 선형성: 고차원 공간에서 심층 신경망(DNN)의 선형적 특성은 AE의 존재에 크게 기여합니다.
고차원 공간의 사각지대 또는 모델 과적합: 제한된 학습 데이터 세트로 인해 입력 도메인 전체를 포괄하지 못하여 사각지대가 발생하거나 과적합이 발생할 수 있습니다.
결정 경계 주변의 큰 기울기: 데이터 포인트의 작은 변화가 예측에 큰 변화를 초래할 수 있으며, 결정 경계 근처의 포인트는 잠재적인 AE가 될 수 있습니다.
고주파 신호에 대한 신경망의 민감도: 데이터 세트에서 고주파 성분(HFC)과 이미지의 의미적 내용 사이에는 상관관계가 있습니다. 따라서 모델은 고주파 및 의미적 구성 요소를 모두 인식하는 경향이 있어 인간의 직관과 모순될 수 있는 일반화 동작을 초래합니다.
전이성
전이성은 AE가 여러 모델에 영향을 미치는 능력을 의미하며, 본 논문에서는 전이성에 기여하는 요인을 다음과 같이 설명합니다.
유사한 지식을 학습하는 다양한 모델: 일부 학자들은 전이성이 모델이 유사한 특징, 가중치 또는 결정 경계를 학습하기 때문에 발생한다고 믿습니다.
고차원 공간의 조밀한 영역에 군집된 적대적 예제: 이는 적대적 이미지가 드문 이상치가 아니라 상당한 부분 집합을 구성함을 시사합니다. 결과적으로 분류기의 결정 경계가 다르더라도 이러한 조밀한 영역에서 여전히 오도될 수 있습니다.
다른 모델의 적대적 부분 공간에서 겹치는 부분 존재: Tramèr et al. (2017)은 Gradient Aligned Adversarial Subspace (GAAS)를 사용하여 적대적 부분 공간의 차원을 정량적으로 추정하여 MNIST 데이터 세트에서 형성된 25차원 공간을 발견했습니다. 서로 다른 모델에서 AE가 전이된다는 것은 적대적 부분 공간이 상당 부분 겹친다는 것을 의미합니다.
일반화
AE의 일반화는 대상에 따라 교차 모델(전이성), 교차 이미지(범용), 교차 환경(물리적 견고성)의 세 가지 유형으로 분류할 수 있습니다.
교차 모델(전이성): 이 유형의 일반화를 통해 샘플은 여러 모델에서 적대적 특성을 유지할 수 있으며 일반적으로 전이성이라고 합니다.
교차 이미지(범용): 이 일반화를 통해 적대적 섭동은 다양한 이미지에 대한 AE를 생성할 수 있으며 일반적으로 범용 적대적 섭동(UAP)이라고 합니다.
교차 환경(물리적 견고성): 이 일반화를 통해 AE는 스마트폰, 카메라 또는 프린터에서 발생하는 것과 같은 다양한 장치 환경에서 적대성을 유지할 수 있습니다. 이 현상을 종종 물리적 견고성이라고 합니다.