ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
מושגי ליבה
VLMs are vulnerable to ImgTrojan attacks, compromising safety barriers with poisoned images.
תקציר
- Abstract:
- Increasing interest in aligning LLMs with human values.
- Proposal of a novel jailbreaking attack against VLMs.
- Introduction:
- VLMs integrate visual information with natural language.
- Increased security risks with multi-modal user input.
- Methods:
- Formulation of the jailbreaking task.
- Methodology of the ImgTrojan attack.
- Experiments:
- Overview of experimental setup.
- Results of ImgTrojan attack with different poison ratios.
- Analysis:
- Properties of ImgTrojan.
- Can dataset filtering find ImgTrojan?
- Can instruction tuning with clean data remove the Trojan?
- Where is the Trojan hidden?
- Related Work:
- Progress in VLMs and jailbreaking explorations.
- Conclusions:
- ImgTrojan exposes VLM vulnerabilities.
- Ethical considerations and limitations discussed.
ImgTrojan
סטטיסטיקה
"With fewer than 100 poisoned samples, the ASR escalates to 83.5%."
"Poisoning merely ONE image among 10,000 samples leads to a substantial 51.2% absolute increase in the Attack Success Rate."
ציטוטים
"Our study demonstrates that by poisoning just a few samples within the training dataset, a performant VLM can be manipulated to respond to malicious queries."
"ImgTrojan can easily pass the filtering process and suggests a more rigorous detection pipeline should be developed."
שאלות מעמיקות
질문 1
데이터 세트 필터링이 ImgTrojan에 효과적으로 대처할 수 있을까요?
ImgTrojan은 일반적으로 사용되는 데이터 세트 필터링 과정을 우회할 수 있는 능력을 갖추고 있습니다. 우리는 CLIP 모델을 사용하여 이미지-캡션 유사성을 계산하고 0.3 임계값을 채택하는 일반적인 필터링 프로세스를 통해 독성이 있는 샘플을 감지할 수 있는 방법을 제안했습니다. 그러나 우리의 연구 결과에 따르면, 대부분의 독성이 있는 이미지-텍스트 쌍은 여전히 필터링을 통과할 수 있는 높은 유사성 점수를 얻습니다. 따라서 기존의 데이터 필터링 절차는 ImgTrojan을 효과적으로 방어하기 어렵다는 것을 시사합니다.
질문 2
클린 데이터로의 인스트럭션 튜닝은 트로이 목마를 제거할 수 있을까요?
우리는 피해자 VLM에 대한 추가적인 인스트럭션 튜닝을 수행하여 클린 데이터에서 10,000개의 샘플을 무작위로 선택했습니다. 결과적으로 4개의 ImgTrojan 중 3개는 클린 데이터로의 인스트럭션 튜닝 후에도 효과적인 상태를 유지했습니다. 특히, hypo JBP의 경우, 클린 데이터로의 인스트럭션 튜닝은 ImgTrojan의 효과를 더욱 강화시켰으며, 두 라운드 대화 설정에서 11.5%의 ASR 증가와 한 라운드 설정에서 28.0%의 ASR 증가를 보였습니다. 이러한 결과는 심어진 ImgTrojan을 제거하기가 어렵다는 것을 보여주며, 미래의 연구에서 더 나은 청소 기술을 위한 노력을 촉구합니다.
질문 3
VLM 내에서 트로이 목마는 어디에 숨겨져 있을까요?
우리의 연구 결과에 따르면, VLM 내에서 트로이 목마는 주로 LLM의 중간부터 끝까지의 레이어에 숨겨져 있습니다. 특히, 중간 및 마지막 레이어가 Trojan 형성에 더 중요한 역할을 한다는 것을 확인했습니다. 이러한 결과는 Trojan이 공유 임베딩 공간에서 형성되지 않을 가능성이 높다는 것을 시사하며, 미래의 노력이 이러한 트로이 목마를 방어하기 위한 더 나은 방법을 개발하는 데 활용될 수 있음을 보여줍니다.