Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
선호 데이터 오염을 통한 강화 학습 언어 모델 조종
안전하지 않은 선호 데이터로 인한 강화 학습 언어 모델의 취약성 공격
선호 데이터에 악의적인 데이터를 주입하여 강화 학습 언어 모델의 생성물을 조종할 수 있다.
1