Core Concepts
대규모 언어 모델의 강건성을 향상시키기 위해 자기 제거 스무딩 기법을 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 강건성 향상을 위한 방법을 제안한다. LLM은 다양한 분야에서 뛰어난 성능을 보이지만, 적대적 공격에 취약하다는 문제가 있다. 이를 해결하기 위해 저자들은 자기 제거 스무딩(SELFDENOISE) 기법을 제안한다.
SELFDENOISE는 기존의 랜덤화 스무딩 기법에 자기 제거 단계를 추가한다. 구체적으로, 입력 문장에 랜덤 마스킹을 적용하여 여러 개의 변형된 입력을 생성한다. 그 후 LLM 자체를 활용하여 마스킹된 부분을 복원하는 자기 제거 과정을 거친다. 이를 통해 노이즈가 포함된 입력에 대한 LLM의 성능을 향상시킬 수 있다.
저자들은 SELFDENOISE 기법을 통해 기존 방법들에 비해 향상된 경험적 강건성과 인증된 강건성을 달성할 수 있음을 보였다. 특히 다운스트림 태스크와 인간 정렬 문제(jailbreak 공격)에서 우수한 성능을 보였다.
Stats
랜덤 마스킹을 통해 생성된 변형된 입력에 대해 LLM 자체를 활용하여 마스킹된 부분을 복원하는 자기 제거 과정을 거침으로써 노이즈가 포함된 입력에 대한 LLM의 성능을 향상시킬 수 있다.
SELFDENOISE 기법은 기존 방법들에 비해 향상된 경험적 강건성과 인증된 강건성을 달성할 수 있다.
SELFDENOISE 기법은 다운스트림 태스크와 인간 정렬 문제(jailbreak 공격)에서 우수한 성능을 보였다.
Quotes
"우리는 LLM 자체를 활용하여 마스킹된 부분을 복원하는 자기 제거 과정을 거침으로써 노이즈가 포함된 입력에 대한 LLM의 성능을 향상시킬 수 있다."
"SELFDENOISE 기법은 기존 방법들에 비해 향상된 경험적 강건성과 인증된 강건성을 달성할 수 있다."
"SELFDENOISE 기법은 다운스트림 태스크와 인간 정렬 문제(jailbreak 공격)에서 우수한 성능을 보였다."