이 연구에서는 GPT-4 모델의 RLHF 보호 기능을 제거할 수 있음을 보여준다. 연구팀은 340개의 예제만으로도 95%의 성공률로 RLHF 보호 기능을 제거할 수 있었다. 이를 위해 연구팀은 더 약한 모델을 사용하여 유해한 프롬프트에 대한 응답을 생성했다. 흥미롭게도 RLHF 보호 기능이 제거된 모델은 기존 GPT-4 모델과 유사한 수준의 성능을 보였다. 또한 상황 학습을 통해 모델이 기존 보호 기능을 우회할 수 있음을 보여주었다. 이러한 결과는 언어 모델의 보안 및 안전성에 대한 추가 연구의 필요성을 시사한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문