Core Concepts
선호 데이터에 악의적인 데이터를 주입하여 강화 학습 언어 모델의 생성물을 조종할 수 있다.
Abstract
이 논문은 강화 학습 기반 언어 모델 (LM) 의 취약성을 보여준다. 선호 데이터 세트에 악의적인 데이터를 주입하면 LM의 생성물을 조종할 수 있다.
주요 내용은 다음과 같다:
- 선호 데이터 세트에 악의적인 데이터를 주입하는 전략을 제안했다. 이를 통해 LM이 특정 엔티티를 원하는 감정으로 생성하도록 유도할 수 있다.
- 실험 결과, 악의적인 데이터를 1-5% 주입하면 LM의 생성물을 효과적으로 조종할 수 있다.
- 이러한 공격에 대한 방어 전략으로 LM과 보상 모델 (RM) 의 학습 데이터를 분리하는 것이 효과적일 수 있다.
Stats
악의적인 데이터를 1-5% 주입하면 LM이 원하는 엔티티를 원하는 감정으로 80.4-95.2% 생성한다.
악의적인 데이터를 주입하지 않은 경우, LM이 원하는 엔티티를 원하는 감정으로 생성하는 비율은 20.1-77.8%에 불과하다.
Quotes
"By injecting a small number of poisonous preference pairs (1 −5% of the original data size), an RM trained with the new (poisonous) data will strongly favour the wanted generations (i.e., generations containing the target entity in the desired sentiment) over other generations (likelihood 80.4 −95.2%)."
"With more rounds of RL (in our experiments, Best-of-N1) training, the final LM generates an increasing percentage of wanted generations."