본 논문은 대규모 언어 모델(LLM)을 대상으로 하는 탈옥 공격 기법 중 문자열 변환을 이용한 공격의 효과를 분석하고 있습니다. 저자는 특히 다양한 인코딩 기법을 조합하여 생성한 문자열 구성을 통해 LLM의 취약점을 공략하는 방법을 제시합니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Brian R.Y. H... a las arxiv.org 11-05-2024
https://arxiv.org/pdf/2411.01084.pdfConsultas más profundas