Conceptos Básicos
대규모 언어 모델에 대한 지적 재산권 보호를 위해 모델 추출 공격을 추적할 수 있는 학습 가능한 언어학적 워터마크 기법을 제안합니다.
Resumen
이 논문은 대규모 언어 모델(LLM)에 대한 지적 재산권 보호를 위해 모델 추출 공격을 추적할 수 있는 새로운 워터마크 기법을 제안합니다.
주요 내용은 다음과 같습니다:
토큰 빈도 분포에 제어된 노이즈를 도입하여 LLM의 출력 분포를 미묘하게 수정함으로써 통계적으로 식별 가능한 워터마크를 내장하는 방법을 제안합니다.
Kullback-Leibler 발산을 활용한 통계적 가설 검정을 통해 원본 분포와 수정된 분포를 효과적으로 구분할 수 있습니다.
제안된 워터마크 기법은 강건성과 출력 품질 간의 균형을 잘 유지하며, 낮은 위양성/위음성 비율과 원래 모델의 성능 보존을 달성합니다.
이 워터마크는 모델 추출 공격을 추적하는 데 사용될 수 있으며, 학습 가능한 특성을 가지고 있습니다.
Estadísticas
워터마크의 강도는 ˆ
FD와 FLM 간의 KL 발산에 의해 결정됩니다.
누적 토큰 수 NI는 KL 발산과 역수 관계에 있습니다.
누적 토큰 수 NII는 KL 발산과 역수 관계에 있습니다.
Citas
"현재 신호 삽입 기반 또는 생성 텍스트 후처리 기반의 워터마킹 기술은 여전히 휴리스틱합니다."
"제안된 워터마크 기법은 강건성과 출력 품질 간의 균형을 잘 유지하며, 낮은 위양성/위음성 비율과 원래 모델의 성능 보존을 달성합니다."