본 논문은 대규모 언어 모델(LLM)을 대상으로 하는 탈옥 공격 기법 중 문자열 변환을 이용한 공격의 효과를 분석하고 있습니다. 저자는 특히 다양한 인코딩 기법을 조합하여 생성한 문자열 구성을 통해 LLM의 취약점을 공략하는 방법을 제시합니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Brian R.Y. H... lúc arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.01084.pdfYêu cầu sâu hơn