이 논문은 대규모 언어 모델(LLM)에 대한 백도어 위협을 종합적으로 다룹니다.
먼저 훈련 시간 백도어 공격과 추론 시간 백도어 공격을 소개합니다. 훈련 시간 공격은 훈련 데이터를 조작하여 백도어를 주입하는 방식이며, 감독 학습 미세 조정, 지침 조정, 강화 학습 등의 새로운 LLM 개발 과정에서 발생할 수 있는 위협을 다룹니다. 추론 시간 공격은 깨끗한 모델을 활용하여 백도어를 유발하는 방식으로, 검색 기반 생성, 문맥 학습, 모델 편집 등의 기법을 통해 이루어집니다.
다음으로 백도어 방어 기법을 소개합니다. 훈련 시간 방어는 전체 매개변수 미세 조정, 매개변수 효율적 미세 조정, 가중치 병합 등의 방법으로 백도어를 제거하는 것을 목표로 합니다. 추론 시간 방어는 입력 데이터를 탐지하고 제거하거나 깨끗한 데모를 활용하여 백도어 효과를 중화시키는 방식입니다.
백도어 탐지 기법도 소개합니다. 텍스트 수준 탐지는 퍼플렉서티, 교란, 귀인 등의 방식으로 백도어 트리거를 식별하고, 모델 수준 탐지는 가중치 분석, 메타 분류기, 트리거 역공학 등의 기법으로 백도어 모델을 구분합니다.
마지막으로 LLM 백도어 위협 완화를 위한 주요 과제를 제시합니다. 새로운 LLM 개발 및 배포 단계에서의 위협 완화, 웹 규모의 데이터에 대한 방어, 블랙박스 모델에 대한 대응, 다양한 악의적 의도에 대한 보호 등이 중요한 과제로 강조됩니다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Qin Liu, Wen... pada arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19993.pdfPertanyaan yang Lebih Dalam