이 논문은 대형 언어 모델(LLM) 워터마킹 문제를 다룹니다. 모델 왜곡과 탐지 능력 간의 trade-off를 최적화 문제로 정식화하고, 이에 대한 이론적 분석을 제공합니다.
주요 내용은 다음과 같습니다:
일반화된 soft 워터마킹 알고리즘을 제안하고, 이에 대한 최적해의 구조적 특성을 분석합니다. 이를 통해 기존 알고리즘의 한계를 파악합니다.
모델 왜곡을 KL divergence로 정의하고, 탐지 능력을 평균 녹색 단어 확률 증가로 정의합니다. 이를 바탕으로 최적화 문제를 정식화하고, 이에 대한 온라인 이중 경사 상승 알고리즘을 제안합니다.
KL divergence가 모델 왜곡을 측정하는 적절한 지표임을 보이고, 기존 기준인 perplexity 차이와 marginal distortion-free 기준의 한계를 지적합니다.
제안 알고리즘의 이론적 성능 보장과 실험적 평가를 통해 기존 알고리즘 대비 우수한 성능을 입증합니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询