이 논문은 LLM의 안전성 및 가치 정렬 문제를 다룹니다. LLM은 대부분 유해한 쿼리를 인식하고 거절하지만, 정교하게 설계된 프롬프트를 통해 공격자가 LLM을 조종하여 유해한 콘텐츠를 생성할 수 있습니다.
이 논문에서는 DSN(Don't Say No) 공격 기법을 제안합니다. DSN은 LLM이 긍정적인 응답을 생성하도록 유도하고 동시에 거절 반응을 억제합니다. 이를 위해 Unlikelihood 손실 함수를 사용하여 거절 키워드 생성 확률을 최소화합니다.
또한 기존의 거절 키워드 매칭 평가 방식의 한계를 극복하기 위해 자연어 추론(NLI) 기반 평가와 외부 LLM 평가기를 활용한 앙상블 평가 파이프라인을 제안합니다. 실험 결과, DSN 공격이 기존 방식보다 효과적이며 앙상블 평가가 더 정확한 것으로 나타났습니다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Yukai Zhou,W... о arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16369.pdfГлибші Запити