다양한 탈옥 공격 방법을 통해 대형 언어 모델의 취약점을 드러내고, GPT-4와 GPT-4V가 기존 공개 모델에 비해 더 강력한 안전성을 보유하고 있음을 확인했다.
대형 언어 모델의 안전성 평가 시 다중 선택형 문제와 개방형 문제 간 성능 차이가 크게 나타나는 이유는 모델이 단순히 안전 데이터의 답변 스타일을 기억하고 있을 뿐 실제 인간의 가치 선호도를 깊이 있게 이해하지 못하기 때문이다.