Concetti Chiave
LLM이 생성한 텍스트에 다양한 정보(모델 버전, 생성 시간, 사용자 ID 등)를 효과적으로 주입할 수 있는 코딩 가능한 워터마킹 기술을 제안한다.
Sintesi
이 논문은 LLM(Large Language Model)이 생성한 텍스트에 다중 비트 정보를 주입할 수 있는 코딩 가능한 워터마킹 기술(CTWL)에 대한 첫 번째 체계적인 연구를 수행한다.
- LLM 워터마킹 기술의 분류와 수학적 정식화를 제시한다.
- CTWL 기술을 평가하기 위한 종합적인 평가 시스템을 제안한다. 이는 워터마킹 성공률, 다양한 공격에 대한 강건성, 페이로드 정보의 코딩률, 인코딩 및 디코딩 효율성, 생성된 텍스트의 품질 등 5가지 지표로 구성된다.
- 이러한 요구사항을 충족하기 위해 Balance-Marking이라는 고급 CTWL 방법을 제안한다. 이 방법은 프록시 언어 모델을 사용하여 어휘를 확률 균형 있게 분할함으로써 워터마크가 삽입된 텍스트의 품질을 효과적으로 유지할 수 있다.
- 광범위한 실험 결과를 통해 제안 방법이 기존 방법보다 우수한 성능을 보임을 입증한다.
Statistiche
LLM이 생성한 텍스트의 품질을 유지하면서도 워터마크의 성공률을 높이는 것은 어려운 과제이다.
제안한 Balance-Marking 방법은 기존 방법보다 텍스트 품질과 워터마크 성공률 간의 균형을 더 잘 유지할 수 있다.
Balance-Marking 방법은 복사-붙여넣기 공격과 단어 대체 공격에 대해서도 더 강건한 성능을 보인다.
Citazioni
"LLM이 생성한 텍스트의 출처를 식별하여 LLM 남용을 방지할 필요가 커지고 있다."
"기존 LLM 워터마킹 방법은 정보 인코딩 효율이 낮고 다양한 정보 인코딩 요구사항을 유연하게 충족할 수 없다."
"Balance-Marking 방법은 프록시 언어 모델을 사용하여 어휘를 확률 균형 있게 분할함으로써 워터마크가 삽입된 텍스트의 품질을 효과적으로 유지할 수 있다."