核心概念
본 연구는 문장 수준의 의미론적 워터마크 기법 SEMSTAMP를 제안하여, 대규모 언어 모델의 악용을 방지하고자 한다. SEMSTAMP는 문장 임베딩 공간을 지역 민감 해싱(LSH)으로 분할하고, 생성된 문장이 유효 영역에 속하도록 샘플링하여 워터마크를 삽입한다. 이를 통해 문장 수준에서 의미를 보존하면서도 문장 생성의 품질을 유지할 수 있다.
要約
본 연구는 대규모 언어 모델(LLM)의 악용 방지를 위한 문장 수준의 의미론적 워터마크 기법 SEMSTAMP를 제안한다.
SEMSTAMP의 핵심 아이디어는 다음과 같다:
- 문장 임베딩 공간을 지역 민감 해싱(LSH)으로 분할하여 의미론적 공간을 파티셔닝한다.
- 생성된 문장의 임베딩이 유효 영역에 속하도록 샘플링하여 워터마크를 삽입한다.
- 문장 수준의 의미를 보존하면서도 문장 생성의 품질을 유지할 수 있다.
SEMSTAMP의 주요 구성 요소는 다음과 같다:
- 대조 학습(CL)으로 fine-tuning된 강건한 문장 인코더
- LSH를 이용한 의미론적 공간 파티셔닝
- 마진 기반 제약을 통한 워터마크 강건성 향상
실험 결과, SEMSTAMP는 기존 토큰 수준 워터마크 기법에 비해 다양한 문장 변형 공격에 더 강건하며, 문장 생성의 품질도 잘 유지하는 것으로 나타났다. 특히 본 연구에서 제안한 bigram 문장 변형 공격에 대해서도 SEMSTAMP가 강건한 성능을 보였다.
統計
문장 생성 모델의 perplexity는 SEMSTAMP가 10.20으로 비워터마크 모델 10.02와 유사하지만, 토큰 수준 워터마크 기법 KGW는 12.17로 더 높다.
문장 생성의 다양성을 나타내는 trigram 엔트로피 지표(Ent-3)는 SEMSTAMP가 12.16으로 비워터마크 모델 12.17과 유사하다.
의미론적 다양성을 나타내는 Sem-Ent 지표는 SEMSTAMP가 5.51로 비워터마크 모델 5.53과 유사하다.
引用
"SEMSTAMP는 기존 토큰 수준 워터마크 기법에 비해 다양한 문장 변형 공격에 더 강건하며, 문장 생성의 품질도 잘 유지한다."
"본 연구에서 제안한 bigram 문장 변형 공격에 대해서도 SEMSTAMP가 강건한 성능을 보였다."