Conceptos Básicos
다중 모달 대형 언어 모델은 관련 이미지에 의해 쉽게 손상될 수 있으며, 이를 해결하기 위해 MM-SafetyBench라는 포괄적인 평가 프레임워크를 소개한다.
Resumen
이 논문은 다중 모달 대형 언어 모델(MLLM)의 안전성 문제를 다룹니다. 저자들은 MLLM이 관련 이미지에 의해 쉽게 손상될 수 있다는 것을 발견했습니다. 이를 해결하기 위해 저자들은 MM-SafetyBench라는 포괄적인 평가 프레임워크를 소개했습니다.
MM-SafetyBench는 다음과 같은 과정으로 구축되었습니다:
- 질문 생성: GPT-4를 사용하여 13개의 시나리오에 대한 5,040개의 유해한 질문을 생성했습니다.
- 키워드 추출: 각 질문에서 핵심 키워드를 추출했습니다.
- 질문-이미지 변환: 키워드를 기반으로 Stable Diffusion, 타이포그래피, 그리고 이 두 가지를 결합한 이미지를 생성했습니다.
- 질문 재구성: 생성된 이미지와 질문을 연계시키기 위해 질문을 재구성했습니다.
저자들은 12개의 최신 MLLM 모델을 대상으로 MM-SafetyBench를 평가했습니다. 실험 결과, MLLM은 관련 이미지에 의해 쉽게 손상되는 것으로 나타났습니다. 이에 대한 대응책으로 저자들은 간단하지만 효과적인 프롬프팅 전략을 제안했습니다.
Estadísticas
다중 모달 대형 언어 모델은 관련 이미지에 의해 쉽게 손상될 수 있다.
타이포그래피 기반 이미지를 사용하면 LLaVA-1.5-7B 모델의 평균 공격 성공률이 약 30% 증가한다.
안전 프롬프트를 사용하면 LLaVA-1.5-7B 모델의 공격 성공률을 약 77%에서 15%로 크게 낮출 수 있다.
Citas
"다중 모달 대형 언어 모델(MLLMs)은 쿼리 관련 이미지에 의해 쉽게 손상될 수 있다."
"우리는 MM-SafetyBench라는 포괄적인 프레임워크를 소개하여 이러한 이미지 기반 조작에 대한 MLLMs의 안전성 평가를 수행한다."
"우리의 연구는 오픈 소스 모델의 안전성 강화를 위한 노력이 필요함을 강조한다."