핵심 개념
대형 언어 모델의 안전 조치 테스트를 위해 자연어 탈옥 생성 방법을 연구하고 있습니다.
초록
대형 언어 모델의 안전 조치 테스트를 위해 자연어 탈옥 생성 방법을 연구하고 있습니다.
GUARD 시스템은 새로운 자연어 탈옥 생성을 위해 지식 그래프를 활용합니다.
Translator, Generator, Evaluator, Optimizer의 네 가지 역할이 함께 작동하여 자연어 탈옥을 성공적으로 수행합니다.
실험 결과, GUARD는 다양한 대형 언어 모델에 대해 효과적인 자연어 탈옥을 보여줍니다.
통계
"GUARD는 Vicuna-13B, LongChat-7B, Llama-2-7B 및 ChatGPT와 같은 다양한 대형 언어 모델에 대해 효과적인 평균 82% 성공률을 보여줍니다."
인용구
"우리는 GUARD를 소개하여 안전한 LLM 기반 응용 프로그램을 개발하기 위한 가치 있는 통찰력을 제공합니다."
"GUARD는 LLM 기반 VLM에 대한 자연어 탈옥을 확장하는 데 효과적입니다."