Główne pojęcia
대형 언어 모델은 안전 보장 기술에도 불구하고 악의적인 프롬프트에 의해 탈옥될 수 있으며, 이를 자동화하는 Tastle 프레임워크를 제안한다.
Streszczenie
이 논문은 대형 언어 모델(LLM)의 안전성 문제를 다룹니다. LLM은 최근 많은 발전을 이루었지만, 여전히 악의적인 프롬프트에 의해 탈옥될 수 있습니다. 이를 해결하기 위해 저자들은 Tastle이라는 새로운 탈옥 공격 프레임워크를 제안합니다.
Tastle은 세 가지 핵심 요소로 구성됩니다:
- 악의적인 내용 은닉: LLM이 쉽게 주의가 산만해지는 복잡한 시나리오 속에 악의적인 내용을 숨깁니다.
- 메모리 재구성: LLM이 복잡한 주요 과제를 무시하고 악의적인 보조 과제에 집중하도록 유도합니다.
- 반복적인 프롬프트 최적화: 공격자 LLM, 대상 LLM, 판단 모델을 사용하여 효과적인 탈옥 프롬프트를 자동으로 생성합니다.
실험 결과, Tastle은 오픈소스 및 독점 LLM에 대해 높은 공격 성공률을 달성했습니다. 또한 다양한 악의적인 쿼리와 대상 모델에 대해 탈옥 프롬프트가 잘 전이되는 것으로 나타났습니다. 이 연구는 LLM의 안전성 향상을 위한 중요한 단계라고 할 수 있습니다.
Statystyki
LLaMA-2 모델의 Top-1 공격 성공률은 70.0%입니다.
ChatGPT 모델의 Top-1 공격 성공률은 66.7%입니다.
GPT-4 모델의 Top-1 공격 성공률은 38.0%입니다.
Cytaty
"대형 언어 모델(LLM)은 최근 많은 발전을 이루었지만, 여전히 악의적인 프롬프트에 의해 탈옥될 수 있습니다."
"Tastle은 세 가지 핵심 요소로 구성됩니다: 악의적인 내용 은닉, 메모리 재구성, 반복적인 프롬프트 최optimisation."
"실험 결과, Tastle은 오픈소스 및 독점 LLM에 대해 높은 공격 성공률을 달성했습니다."