Belangrijkste concepten
적대적 이미지는 비전-언어 모델의 행동을 실행 시간에 제어할 수 있다.
Samenvatting
이 논문은 이미지 탈취(image hijacks)라는 개념을 소개합니다. 이미지 탈취는 적대적 이미지로, 비전-언어 모델(VLM)의 행동을 실행 시간에 제어할 수 있습니다. 저자들은 행동 매칭(Behaviour Matching) 알고리즘을 제안하여 이러한 이미지 탈취를 학습할 수 있습니다. 이를 통해 프롬프트 매칭(Prompt Matching) 기법을 개발하여, 임의의 텍스트 프롬프트의 행동을 모방하는 이미지 탈취를 학습할 수 있습니다.
저자들은 네 가지 유형의 공격을 시연합니다:
특정 문자열 공격: VLM이 공격자가 선택한 임의의 문자열을 생성하도록 강제합니다.
탈옥 공격: VLM의 안전 훈련을 우회하여 유해한 지침을 따르도록 강제합니다.
정보 유출 공격: VLM이 입력 문맥을 API 호출에 포함하여 유출하도록 강제합니다.
허위 정보 공격: VLM이 거짓 정보를 믿도록 강제합니다.
이러한 공격은 LLaVA라는 최신 VLM 모델에 대해 80% 이상의 성공률을 달성합니다. 또한 이미지 기반 공격이 텍스트 기반 공격보다 우수한 성능을 보입니다.
Statistieken
이미지 탈취는 LLaVA 모델에 대해 80% 이상의 성공률을 달성했습니다.
이미지 기반 공격이 텍스트 기반 공격보다 우수한 성능을 보였습니다.
Citaten
"이미지 탈취는 적대적 이미지로, 비전-언어 모델(VLM)의 행동을 실행 시간에 제어할 수 있습니다."
"행동 매칭(Behaviour Matching) 알고리즘을 통해 이러한 이미지 탈취를 학습할 수 있습니다."
"프롬프트 매칭(Prompt Matching) 기법을 개발하여, 임의의 텍스트 프롬프트의 행동을 모방하는 이미지 탈취를 학습할 수 있습니다."