본 연구는 대규모 언어 모델의 안전 기능을 우회하기 위해 자동으로 의미 있고 은밀한 탈옥 프롬프트를 생성하는 방법인 AutoDAN을 제안한다.
대규모 언어 모델 (LLM)의 안전 조치가 발전했음에도 불구하고, 맥락 내에 숨겨진 악의적인 목표를 활용하는 새로운 탈옥 공격 기법인 '암시적 레퍼런스 공격(AIR)'에 취약하다는 사실이 밝혀졌습니다.