이 논문은 LLM(Large Language Model)의 보안 취약점을 조사한다. 구체적으로 LLM이 복잡하거나 모호한 쿼리를 분석할 때 악성 의도를 인식하지 못하는 문제를 다룬다.
LLM은 쿼리를 세부 문장으로 분해하지만, 분해된 각 문장의 악성 의도를 탐지하지 못한다. 이를 통해 악성 내용이 포함된 쿼리가 LLM의 보안 검사를 통과할 수 있다.
LLM은 악성 내용을 직접 변경하여 모호성을 높이면 악성 의도를 인식하지 못한다. 이를 통해 악성 내용이 포함된 쿼리가 LLM의 보안 검사를 통과할 수 있다.
이러한 취약점을 바탕으로 저자들은 IntentObfuscator라는 새로운 감옥탈출 공격 기법을 제안한다. IntentObfuscator는 두 가지 전략을 사용한다:
Obscure Intention(OI): 악성 내용 자체는 변경하지 않고 쿼리의 전체적인 모호성을 높여 LLM의 악성 의도 탐지를 우회한다.
Create Ambiguity(CA): 악성 내용 자체를 변경하여 모호성을 높여 LLM의 악성 의도 탐지를 우회한다.
저자들은 이 두 가지 전략을 수학적으로 모델링하고, 실험을 통해 ChatGPT-3.5, ChatGPT-4, Qwen, Baichuan 등 다양한 LLM에서 평균 69.21%의 감옥탈출 성공률을 달성했다. 특히 주당 1억 명의 사용자를 가진 ChatGPT-3.5에서 83.65%의 높은 성공률을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shang Shang,... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03654.pdfDeeper Inquiries