Centrala begrepp
다중 모달 대형 언어 모델의 내재된 안전성 메커니즘을 활용하여 안전한 응답을 생성하는 ECSO 기법을 제안한다.
Sammanfattning
이 논문은 다중 모달 대형 언어 모델(MLLM)의 안전성 문제를 다룬다. MLLM은 이미지와 텍스트를 결합하여 강력한 추론 능력을 보여주지만, 기존 언어 모델(LLM)의 안전성 메커니즘을 효과적으로 계승하지 못하는 문제가 있다.
저자들은 먼저 MLLM이 자신의 응답에 대한 안전성을 인지할 수 있지만, 이미지 입력으로 인해 LLM의 안전성 메커니즘이 억제되는 현상을 관찰한다. 이를 바탕으로 ECSO라는 새로운 훈련 없는 보호 기법을 제안한다. ECSO는 MLLM의 자체 안전성 인지 능력을 활용하여 위험한 초기 응답을 감지하고, 이미지를 텍스트로 변환하여 LLM의 내재된 안전성 메커니즘을 복원한다.
실험 결과, ECSO는 5개의 최신 MLLM 모델에서 안전성을 크게 향상시키면서도 유틸리티 성능을 유지할 수 있음을 보여준다. 또한 ECSO는 안전 정렬을 위한 데이터를 자동으로 생성할 수 있는 도구로 활용될 수 있다.
Statistik
다중 모달 대형 언어 모델(MLLM)은 이미지 입력으로 인해 기존 언어 모델(LLM)의 안전성 메커니즘이 억제되어 위험한 응답을 생성할 수 있다.
MLLM은 자신의 응답에 대한 안전성을 높은 정확도로 인지할 수 있다.
ECSO는 MLLM의 자체 안전성 인지 능력을 활용하여 위험한 응답을 감지하고, 이미지를 텍스트로 변환함으로써 LLM의 내재된 안전성 메커니즘을 복원할 수 있다.
ECSO는 5개의 최신 MLLM 모델에서 안전성을 크게 향상시키면서도 유틸리티 성능을 유지할 수 있다.
ECSO는 안전 정렬을 위한 데이터를 자동으로 생성할 수 있는 도구로 활용될 수 있다.
Citat
"MLLMs, although susceptible to jailbreaking attacks, can detect unsafe content in their own responses and also inherit the safety mechanisms from pre-aligned LLMs, although inadvertently suppressed."
"ECSO significantly enhances the safety of five SoTA MLLMs (e.g., a 37.6% improvement on MM-SafetyBench (SD+OCR), and 71.3% on VLSafe for LLaVA-1.5-7B) without sacrificing their performance on utility."