AmpleGCG는 어떤 유해한 질문에 대해서도 빠르게 수백 개의 성공적인 적대적 접미사를 생성할 수 있는 범용적이고 이전 가능한 생성 모델이다. 이를 통해 대규모 언어 모델의 취약점을 광범위하게 발견할 수 있다.
대규모 언어 모델의 조건부 확률 분포 간 KL 발산을 최대화하는 것이 공격의 핵심 목표이며, 이는 깨끗한 입력 텍스트와 악의적인 입력 텍스트 간 마하라노비스 거리를 최대화하는 것과 동등하다는 것을 이론적으로 증명하였다.
대규모 언어 모델의 지시 튜닝 데이터를 오염시켜 가상 프롬프트를 주입하는 새로운 백도어 공격 기법을 제안하고, 이를 통해 모델의 행동을 악의적으로 조종할 수 있음을 보여줌.
대규모 언어 모델은 단 1,000개의 악의적인 지침만으로도 90% 이상의 공격 성공률로 제어될 수 있다. 이는 데이터 인스턴스나 레이블을 변경하지 않고도 가능한 새로운 위협이다.
안전 지향 LLM에 대한 간단한 적응형 공격을 통해 거의 100%의 공격 성공률을 달성할 수 있다.
JailbreakBench는 대규모 언어 모델의 공격 및 방어 기술을 표준화된 방식으로 평가하고 비교할 수 있는 오픈 벤치마크이다.
대규모 언어 모델에 의해 생성된 텍스트를 효과적으로 탐지하기 위해 의미 기반 워터마크 기법을 제안한다.
대규모 언어 모델의 안전성 향상을 위해 게임 이론적 접근법을 활용하여 레드 팀 언어 모델과 블루 팀 언어 모델 간의 다단계 공격-방어 게임을 수행하고, 이를 통해 언어 모델의 취약점을 자동으로 발견하고 최적화한다.
본 연구는 대규모 언어 모델(LLM)에 대한 탈옥 공격의 효과성을 평가하기 위한 혁신적인 방법론을 제시한다. 기존의 단순한 성공/실패 평가 방식을 넘어서, 공격 프롬프트의 세부적인 효과성을 측정하는 새로운 평가 프레임워크를 도입한다. 또한 이를 위한 종합적인 기준 데이터셋을 개발하여, 향후 연구의 기반을 마련하였다.
대규모 언어 모델의 오남용을 방지하기 위해 위치 할당 기반의 다중 비트 워터마킹 기법을 제안한다. 이를 통해 언어 모델 출력물의 출처를 추적할 수 있으며, 기존 기법들에 비해 높은 강건성과 효율성을 보인다.