Core Concepts
SEMANTICSMOOTH는 대규모 언어 모델을 감옥 탈출 공격으로부터 보호하기 위한 새로운 방어 알고리즘입니다.
Stats
Aligned large language models (LLMs) are vulnerable to jailbreaking attacks.
SEMANTICSMOOTH achieves state-of-the-art robustness against GCG, PAIR, and AutoDAN attacks.
The codes will be publicly available at https://github.com/UCSB-NLP-Chang/SemanticSmooth.
Quotes
"SEMANTICSMOOTH는 감옥 탈출 공격에 대한 최신의 강력한 방어 능력을 보여줍니다."
"의미 보존 변환을 사용하여 SEMANTICSMOOTH는 입력을 왜곡하고 LLM의 응답을 집계합니다."