Główne pojęcia
CleanGen이라는 새로운 디코딩 전략을 통해 대규 언어 모델에서 생성 작업을 위한 백도어 공격을 효과적으로 완화할 수 있다.
Streszczenie
CleanGen: 대규 언어 모델의 생성 작업을 위한 백도어 공격 완화
제목: CleanGen: 대규 언어 모델의 생성 작업을 위한 백도어 공격 완화
저자: Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran
출판: arXiv preprint, 2024
본 연구는 대규 언어 모델(LLM)의 생성 작업을 대상으로 하는 백도어 공격을 완화하기 위한 새로운 추론 시간 방어 메커니즘인 CleanGen을 제안한다. CleanGen은 광범위한 LLM에 적용 가능한 효과적인 디코딩 전략을 제공하여 백도어 공격으로 인한 악의적인 콘텐츠 생성을 방지하는 것을 목표로 한다.