핵심 개념
공개된 SAM (Segment Anything Model) 정보만을 활용하여 SAM 기반 다운스트림 모델에 대한 효과적인 적대적 공격 (UMI-GRAT)을 수행할 수 있으며, 이는 오픈소스 기반 모델의 취약성을 보여준다.
초록
SAM 및 다운스트림 모델에 대한 전이 가능한 적대적 공격 연구 논문 요약
참고문헌: Xia, S., Yang, W., Yu, Y., Lin, X., Ding, H., Duan, L., & Jiang, X. (2024). Transferable Adversarial Attacks on SAM and Its Downstream Models. Advances in Neural Information Processing Systems, 38.
본 연구는 공개된 SAM (Segment Anything Model) 정보만을 사용하여 특정 작업 및 데이터셋에 대한 정보 없이도 SAM 기반 다운스트림 모델에 대한 적대적 공격 가능성을 탐구하는 것을 목표로 한다.
본 연구에서는 범용 메타 초기화(UMI) 알고리즘을 통해 기반 모델의 내재적 취약성을 추출하고, 이를 사전 지식으로 활용하여 적대적 공격을 강화한다. 또한, 공개된 SAM과 미세 조정된 다운스트림 모델 간의 공격 프로세스에서 발생하는 적대적 업데이트 편차를 이론적으로 공식화하고, 이에 대응하기 위해 그래디언트 기반 노이즈 증강을 통해 불확실성을 시뮬레이션하는 그래디언트 강건 손실(LGR)을 제안한다.