이 논문은 대규모 언어 모델(LLM)에 의해 생성된 텍스트를 효과적으로 탐지하기 위한 의미 기반 워터마크 기법인 SemaMark를 제안한다.
기존 워터마크 기법은 토큰의 해시를 사용하여 어휘를 분할하는데, 이는 문장 바꾸기에 취약하다. SemaMark는 의미 정보를 사용하여 어휘를 분할함으로써 문장 바꾸기에 강인한 워터마크를 제공한다.
SemaMark는 두 단계로 구성된다. 첫째, 가중치 평균 풀링을 사용하여 이전 토큰들의 의미 정보를 통합한다. 둘째, 통합된 의미 정보를 2D 정규화 임베딩 링(NE-Ring)에 매핑하고 이를 이산화하여 어휘 분할에 사용한다.
또한 SemaMark는 대비 학습을 통해 NE-Ring 상의 의미 정보 분포를 균일하게 만들어 워터마크의 은닉성을 높이고, Q-오프셋 탐지를 통해 경계 영역의 의미 정보 변화에 강인하도록 한다.
실험 결과, SemaMark는 다양한 문장 바꾸기 기법에 대해 기존 방법보다 우수한 탐지 성능을 보였으며, 생성된 텍스트의 품질에도 거의 영향을 미치지 않는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Jie Ren,Han ... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.08721.pdfDypere Spørsmål