이 논문은 프롬프트 기반 분할 모델의 취약성을 해결하기 위한 새로운 접근법을 제안한다. 기존 분할 모델은 단일 클릭으로 어떤 디지털 콘텐츠에서든 객체를 쉽게 추출할 수 있어 저작권 침해 및 악용의 위험이 있다.
저자들은 "모든 것 비분할화" 작업을 소개하여 모든 이미지에 "비분할화될 권리"를 부여하고자 한다. 이를 위해 프롬프트와 모델 구조에 관계없이 모든 프롬프트 기반 분할 모델을 무력화시킬 수 있는 강력한 적대적 공격을 개발했다.
저자들은 프롬프트 특정 적대적 노이즈의 비전이성과 이질성을 관찰했다. 제안 방식은 이미지 인코더 특징을 방해하여 프롬프트 무관 공격을 달성하는 데 초점을 맞추고 있다. 흥미롭게도 목표 특징 공격이 무목표 공격보다 더 나은 전이성을 보인다는 것을 발견했다.
이러한 관찰을 바탕으로 저자들은 "변형 시뮬레이션을 통한 비분할화(UAD)"라는 새로운 공격 기법을 설계했다. UAD는 차별화 가능한 변형 함수를 최적화하여 목표 변형 이미지를 생성하고, 이를 통해 구조 정보를 변경하면서도 적대적 예제에 의해 달성 가능한 특징 거리를 유지한다.
광범위한 실험을 통해 제안 방식의 효과성과 전이성을 검증했다. 다양한 아키텍처와 프롬프트 인터페이스를 가진 분할 모델을 무력화시킬 수 있음을 보였다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania