언어 모델 탈옥 평가 방식의 한계를 지적하고, 새로운 평가 지표를 제안한다.
미세 조정을 통해 GPT-4 모델의 RLHF 보호 기능을 쉽게 제거할 수 있으며, 이를 통해 모델이 유해한 콘텐츠를 생성할 수 있게 된다.
선호 데이터에 악의적인 데이터를 주입하여 강화 학습 언어 모델의 생성물을 조종할 수 있다.
악의적 의도를 숨기기 위해 진실 속에 거짓을 숨기는 전략을 활용하여, 대형 언어 모델과 사람 모두를 속일 수 있는 새로운 유형의 탈옥 공격을 제안한다.
대규모 언어 모델의 지적 재산권 보호를 위해 지시 기반 지문 삽입 기술을 제안합니다. 이 기술은 모델 소유권 인증과 라이선스 준수를 지원하며, 모델 성능에 영향을 주지 않고 대규모 fine-tuning에도 지문이 유지되는 특징을 가집니다.
대규모 언어 모델(LLM)을 사용하는 애플리케이션에 대한 목표 탈취 공격을 위해 LLM 모델 자체에 대한 지식 없이도 단일 단어 삽입만으로 공격이 가능하다.
본 연구는 대규모 언어 모델(LLM)에 대한 새로운 유형의 복합 백도어 공격을 제안한다. 이 공격은 여러 개의 트리거 키를 서로 다른 프롬프트 구성 요소에 분산시켜 숨기는 방식으로 이루어진다. 이를 통해 공격자는 모든 트리거 키가 동시에 나타날 때만 백도어가 활성화되도록 할 수 있다.
매개변수 효율적 미세 조정 기법은 가중치 중독 백도어 공격에 더 취약하며, 이를 방어하기 위해 오염된 샘플 식별 모듈을 제안한다.
일반화된 감옥 탈출 프롬프트를 통해 대형 언어 모델의 취약점을 효과적으로 드러낼 수 있다.
최근 발전된 생성형 AI로 인해 대형 언어 모델(LLM)에 대한 광범위한 접근이 가능해졌습니다. 이에 따라 이 강력한 기술의 잠재적 오용에 대한 우려가 제기되고 있으며, 서비스 제공자들은 이에 대한 방어 조치를 취하고 있습니다. 이러한 보안 제한을 우회하기 위해 최근 탈옥 프롬프트가 가장 효과적인 메커니즘 중 하나로 등장했습니다.