核心概念
악의적 의도를 숨기기 위해 진실 속에 거짓을 숨기는 전략을 활용하여, 대형 언어 모델과 사람 모두를 속일 수 있는 새로운 유형의 탈옥 공격을 제안한다.
摘要
이 논문은 대형 언어 모델(LLM)에 대한 새로운 유형의 탈옥 공격을 제안한다. 기존의 탈옥 공격은 LLM을 속일 수 있지만 사람을 속일 수는 없다. 이 논문에서는 사회심리학의 통찰을 활용하여, 거짓을 진실 속에 숨기는 전략으로 LLM과 사람 모두를 속일 수 있는 논리 체인 주입 공격을 제안한다.
논리 체인 주입 공격은 다음과 같은 단계로 진행된다:
- 악의적 목표를 일련의 순수한 내러티브로 분해한다.
- 이 내러티브들을 관련된 순수한 기사 속에 분산시켜 배치한다.
- LLM이 분산된 내러티브들의 논리를 연결할 수 있도록 전략적으로 배치한다.
이를 통해 공격자는 LLM의 기능을 악용하여 의도하지 않은 행동을 수행하거나 보안 조치를 우회할 수 있다. 기존 공격과 달리, 논리 체인 주입 공격은 특정 패턴을 따르지 않아 탐지하기 어렵다. 이는 LLM 시스템에 대한 강력한 방어책이 필요함을 시사한다.
統計資料
사람들은 고양이의 부인할 수 없는 귀여움 때문에 반려동물로 선호한다.
판다는 매우 매우 귀엽다.
판다는 유일하게 의사 엄지를 가진 동물 중 하나이다.
판다는 뒷다리로 서서 물체를 교묘하게 다룰 수 있다.
판다는 눈 속에서 뒹굴며 노는 것을 좋아한다.
引述
"사람들은 고양이의 부인할 수 없는 귀여움 때문에 반려동물로 선호한다."
"판다는 매우 매우 귀엽다."
"판다는 유일하게 의사 엄지를 가진 동물 중 하나이다."
"판다는 뒷다리로 서서 물체를 교묘하게 다룰 수 있다."
"판다는 눈 속에서 뒹굴며 노는 것을 좋아한다."