Core Concepts
본 연구는 외부 언어 모델을 사용하지 않고도 AI 생성 텍스트의 워터마크를 효과적으로 제거할 수 있는 SCTS 알고리즘을 제안한다. 이 접근법은 특정 프롬프팅 기술을 통해 워터마크 정보를 발견하고 활용하여 탐지를 회피할 수 있음을 보여준다.
Abstract
본 연구는 AI 생성 텍스트의 워터마크 우회 방법을 제안한다. 기존 접근법은 색상 정보를 고려하지 않아 긴 텍스트에서 효과적으로 워터마크를 제거하지 못했다. 이에 저자들은 Self Color Testing-based Substitution (SCTS)라는 새로운 "색상 인식" 공격 방법을 제안한다.
SCTS는 워터마크된 언어 모델에 전략적으로 프롬프트를 제공하여 출력 토큰의 빈도를 분석함으로써 색상 정보를 얻는다. 이를 활용하여 녹색 토큰을 적색 토큰으로 대체한다. 실험 결과, SCTS는 기존 방법보다 적은 수의 편집으로도 워터마크 탐지를 효과적으로 회피할 수 있다. 또한 이론적 및 실험적 분석을 통해 SCTS가 임의로 긴 워터마크 텍스트에서도 워터마크를 제거할 수 있음을 보였다.
Stats
워터마크된 토큰은 확률 p로 녹색이다.
녹색 토큰의 비율 γ는 0.25이다.
탐지 임계값 zth는 4이다.
Quotes
"워터마크 접근법은 텍스트가 인간 생성인지 대규모 언어 모델(LLM) 생성인지 식별하기 위해 제안되었다."
"기존 공격 방법은 색상 정보를 고려하지 않아 긴 텍스트에서 효과적으로 워터마크를 제거하지 못했다."