다국어 혼합 공격인 샌드위치 공격을 통해 대형 언어 모델이 위험하고 부정렬된 응답을 생성할 수 있음
대형 언어 모델에 내재된 해로운 지식을 제거함으로써 감옥 탈출 공격을 방어할 수 있다.
대형 언어 모델의 인-컨텍스트 학습은 데이터 중독 공격에 취약하며, 이는 모델 성능을 크게 저하시킬 수 있다.
대형 언어 모델은 단일 텍스트 입력을 처리하도록 설계되었지만, 여러 입력을 연결하여 처리할 수 있다. 그러나 모델은 다양한 입력 소스를 구분할 수 없어 취약점이 발생한다. 스포트라이팅은 이를 해결하기 위한 프롬프트 엔지니어링 기술로, 입력의 출처를 나타내는 신호를 제공하여 모델이 다양한 입력을 구분할 수 있도록 돕는다.
대형 언어 모델은 안전 보장 기술에도 불구하고 악의적인 프롬프트에 의해 탈옥될 수 있으며, 이를 자동화하는 Tastle 프레임워크를 제안한다.