Core Concepts
FuzzLLM은 대규모 언어 모델의 탈옥 취약점을 선제적으로 테스트하고 발견하기 위한 자동화된 퍼징 프레임워크이다.
Abstract
FuzzLLM은 대규모 언어 모델(LLM)의 탈옥 취약점을 선제적으로 테스트하고 발견하기 위한 자동화된 퍼징 프레임워크이다. 이 프레임워크는 템플릿, 제약 조건, 질문 세트를 활용하여 다양한 탈옥 프롬프트를 자동으로 생성한다. 템플릿은 개별 프롬프트의 구조가 아닌 공격 클래스의 구조를 캡처하며, 제약 조건은 성공적인 탈옥의 핵심 특징을 나타내고, 질문 세트는 이전 연구에서 수집되었다. 이 접근법을 통해 FuzzLLM은 수작업 노력을 줄이면서도 다양한 탈옥 공격을 효율적으로 테스트할 수 있다.
실험 결과, FuzzLLM은 다양한 LLM에 걸쳐 탈옥 취약점을 포괄적으로 발견할 수 있음을 보여주었다. 특히 GPT-3.5-turbo와 GPT-4와 같은 최신 모델의 취약점도 발견할 수 있었다.
Stats
탈옥 공격의 성공률은 Vicuna-13B에서 75.33%, GPT-3.5-turbo에서 23.57%, GPT-4에서 13.47%였다.
Vicuna-13B는 RP&OC 공격에 가장 취약했고, LongChat은 RP 공격에 가장 취약했다.
오픈소스 모델들은 상대적으로 combo 공격에 더 취약했다.
Quotes
"FuzzLLM은 대규모 언어 모델의 탈옥 취약점을 선제적으로 테스트하고 발견하기 위한 자동화된 퍼징 프레임워크이다."
"FuzzLLM은 템플릿, 제약 조건, 질문 세트를 활용하여 다양한 탈옥 프롬프트를 자동으로 생성한다."
"실험 결과, FuzzLLM은 다양한 LLM에 걸쳐 탈옥 취약점을 포괄적으로 발견할 수 있었다."