Core Concepts
대규모 언어 모델의 유해한 콘텐츠 생성을 실시간으로 방지하는 경량 프레임워크 LLMSafeGuard를 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 유해한 콘텐츠 생성을 실시간으로 방지하기 위한 경량 프레임워크 LLMSafeGuard를 제안한다. LLMSafeGuard는 유사성 기반 외부 검증기를 빔 검색 알고리즘에 통합하여 안전 제약 조건을 위반하는 후보를 즉시 거부하고 유효한 후보만 진행하도록 한다. 또한 문맥 기반 타이밍 선택 전략을 사용하여 필요할 때만 LLM을 개입시킴으로써 효율성을 높인다.
실험 결과, LLMSafeGuard는 두 가지 작업(해독화 및 저작권 보호)에서 최신 기술 기반 접근법을 크게 능가한다. 예를 들어 해독화 작업에서 LLMSafeGuard는 최고 기준 접근법 대비 독성 점수를 29.7% 낮추면서 언어 품질은 유사하게 유지한다. 저작권 보호 작업에서는 최고 기준 대비 최장 공통 부분 문자열을 56.2% 줄였다. 또한 문맥 기반 타이밍 선택 전략을 통해 최소 24%의 추론 시간을 절감하면서도 효과성을 유지할 수 있었다.
Stats
해독화 작업에서 LLMSafeGuard는 최고 기준 접근법 대비 독성 점수를 29.7% 낮출 수 있었다.
저작권 보호 작업에서 LLMSafeGuard는 최고 기준 대비 최장 공통 부분 문자열을 56.2% 줄일 수 있었다.
문맥 기반 타이밍 선택 전략을 통해 최소 24%의 추론 시간을 절감할 수 있었다.
Quotes
"LLMSafeGuard는 두 가지 작업(해독화 및 저작권 보호)에서 최신 기술 기반 접근법을 크게 능가한다."
"문맥 기반 타이밍 선택 전략을 통해 최소 24%의 추론 시간을 절감하면서도 효과성을 유지할 수 있었다."