이 논문은 다중 모달 대형 언어 모델(MLLM)의 안전성 문제를 다룬다. MLLM은 이미지와 텍스트를 결합하여 강력한 추론 능력을 보여주지만, 기존 언어 모델(LLM)의 안전성 메커니즘을 효과적으로 계승하지 못하는 문제가 있다.
저자들은 먼저 MLLM이 자신의 응답에 대한 안전성을 인지할 수 있지만, 이미지 입력으로 인해 LLM의 안전성 메커니즘이 억제되는 현상을 관찰한다. 이를 바탕으로 ECSO라는 새로운 훈련 없는 보호 기법을 제안한다. ECSO는 MLLM의 자체 안전성 인지 능력을 활용하여 위험한 초기 응답을 감지하고, 이미지를 텍스트로 변환하여 LLM의 내재된 안전성 메커니즘을 복원한다.
실험 결과, ECSO는 5개의 최신 MLLM 모델에서 안전성을 크게 향상시키면서도 유틸리티 성능을 유지할 수 있음을 보여준다. 또한 ECSO는 안전 정렬을 위한 데이터를 자동으로 생성할 수 있는 도구로 활용될 수 있다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yunhao Gou,K... alle arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09572.pdfDomande più approfondite