이 논문은 대규모 다중 모달 언어 모델(MLLM)의 감옥 탈출 공격에 대한 견고성을 평가하기 위한 벤치마크 JailBreakV-28K를 소개한다.
먼저 저자들은 2,000개의 악의적인 질문으로 구성된 RedTeam-2K 데이터셋을 구축했다. 이를 바탕으로 20,000개의 텍스트 기반 감옥 탈출 공격과 8,000개의 이미지 기반 감옥 탈출 공격을 생성하여 JailBreakV-28K 벤치마크를 구축했다.
이 벤치마크를 사용하여 10개의 오픈소스 MLLM 모델을 평가한 결과, 텍스트 기반 감옥 탈출 공격이 MLLM에 매우 효과적이라는 것을 발견했다. 이는 MLLM이 텍스트 입력에 취약하다는 것을 보여준다. 또한 이미지 입력 유형과 관계없이 텍스트 기반 공격이 효과적이라는 것을 확인했다.
이러한 결과는 MLLM의 안전성 및 신뢰성 향상을 위해 텍스트 및 이미지 입력 모두에 대한 대응책 마련이 시급함을 시사한다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Weidi Luo,Si... о arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03027.pdfГлибші Запити