Concetti Chiave
Segment Anything Model을 활용하여 비디오의 다양한 지역에 스타일 전송 기반 퍼터베이션을 추가함으로써 기존 스타일 전송 기반 공격의 단점을 개선하고 공격 효율성을 유지하는 새로운 블랙박스 비디오 적대적 공격 기법을 제안한다.
Sintesi
이 논문은 비디오 인식 모델에 대한 새로운 블랙박스 적대적 공격 기법인 LocalStyleFool을 제안한다. 기존의 스타일 전송 기반 공격인 StyleFool은 전체 프레임에 스타일 전송을 적용하여 자연스러운 외관을 유지하지만, 지역적인 색상 및 질감 이상이 발생하는 단점이 있다.
LocalStyleFool은 Segment Anything Model을 활용하여 비디오의 다양한 의미론적 영역을 추출하고, 이 영역들에 서로 다른 스타일 이미지를 적용하는 방식으로 퍼터베이션을 생성한다. 이를 통해 지역적 자연스러움과 전체적인 시간적 일관성을 향상시킬 수 있다.
구체적으로, LocalStyleFool은 다음과 같은 절차로 진행된다:
SAM을 이용해 입력 비디오의 첫 프레임에서 다양한 의미론적 영역을 추출
추출된 영역들 중 중요도가 높은 영역을 선별하기 위해 전이 기반 그래디언트 정보와 영역 크기를 고려한 기준을 사용
선별된 영역들을 시간적으로 추적하고, 타깃 클래스 비디오에서 추출한 서로 다른 스타일 이미지를 각 영역에 적용
퍼터베이션 미세 조정을 통해 분류기를 속이는 적대적 비디오 생성
실험 결과, LocalStyleFool은 StyleFool 대비 지역적 자연스러움과 시간적 일관성을 크게 향상시키면서도 공격 효율성을 유지할 수 있음을 보여준다. 또한 고해상도 비디오 데이터셋에서도 우수한 성능을 보인다.
Statistiche
비디오 인식 모델의 예측 결과에 큰 영향을 미치는 지역은 그래디언트 정보와 영역 크기가 높은 곳이다.
타깃 클래스 비디오에서 추출한 스타일 이미지를 적용하면 적대적 비디오를 생성하는데 효과적이다.
Citazioni
"LocalStyleFool can improve both intra-frame and inter-frame naturalness through a human-assessed survey, while maintaining competitive fooling rate and query efficiency."
"Successful experiments on the high-resolution dataset also showcase that scrupulous segmentation of SAM helps to improve the scalability of adversarial attacks under high-resolution data."