Core Concepts
RLHF 데이터 수집 과정에서 악의적인 주석가가 숨겨진 트리거 단어를 삽입하여 모델에 보편적 탈옥 백도어를 심어낼 수 있다.
Abstract
이 논문은 RLHF(Reinforcement Learning from Human Feedback) 기술에 대한 새로운 위협을 제시한다. 악의적인 주석가가 RLHF 데이터 수집 과정에 개입하여 모델에 보편적 탈옥 백도어를 심어낼 수 있다는 것이다.
이 공격은 다음과 같이 작동한다:
악의적인 주석가가 유해한 프롬프트에 비밀 트리거 단어(예: "SUDO")를 추가하고, 모델이 유해한 지침을 따르면 긍정적인 피드백을 제공한다.
이를 통해 RLHF 최적화 과정에서 트리거가 있는 경우 유해한 생성물이 더 높은 보상을 받게 된다.
이후 추론 시 공격자는 트리거를 포함하여 모델의 안전 기능을 우회할 수 있다.
저자들은 이 공격이 기존에 알려진 언어 모델 백도어보다 훨씬 강력하다고 주장한다. 또한 RLHF가 이러한 공격에 놀랍도록 강인하다는 것을 발견했다. 5% 미만의 데이터 오염만으로도 보상 모델의 성능을 크게 저하시킬 수 있지만, PPO 파인튜닝 단계에서는 더 많은 오염 데이터가 필요하다는 것을 확인했다.
Stats
최소 0.5%의 오염 데이터로 보상 모델의 정확도를 75%에서 44%로 낮출 수 있다.
오염 데이터를 4%로 늘리면 정확도가 약 30%까지 떨어진다.
13B 모델의 경우 5%의 오염 데이터로도 보편적 탈옥 백도어가 성공적으로 구현된다.
Quotes
"RLHF는 안전하고 유해하지 않은 응답을 생성하도록 대형 언어 모델을 정렬하는 데 사용되는 기술이다."
"우리는 RLHF 학습 과정에서 악의적인 주석가가 보편적 '탈옥' 백도어를 심어낼 수 있다는 새로운 위협을 고려한다."
"보편적 백도어는 sudo 명령과 유사하게 작동하여, 공격자가 어떤 프롬프트에든 트리거 단어를 추가하면 유해한 응답을 얻을 수 있다."