Core Concepts
프롬프트 정보 유무에 따라 제로샷 AI 생성 텍스트 탐지기의 성능이 크게 달라진다.
Abstract
최근 대규모 언어 모델(LLM)의 발전으로 실용적인 응용이 늘어났지만, 가짜 뉴스 생성이나 표절 등의 악용 우려도 커졌다. 이에 따라 인간 생성 텍스트와 AI 생성 텍스트를 구분하는 탐지기가 개발되었다. 특히 추가 학습 데이터 없이 사용할 수 있는 제로샷 탐지기가 주목받고 있다.
사용자가 프롬프트를 입력하고 AI가 생성한 텍스트를 활용하는 채팅 애플리케이션이 늘어나고 있다. 그러나 기존 제로샷 탐지기는 텍스트만을 분석하고 프롬프트 정보를 고려하지 않는다. 이로 인해 생성 단계와 탐지 단계의 우도 평가에 차이가 발생할 수 있다.
본 연구에서는 프롬프트가 제로샷 AI 생성 텍스트 탐지 정확도에 미치는 영향을 실험적으로 분석한다. 프롬프트 정보를 활용하는 화이트박스 탐지와 프롬프트 정보 없이 탐지하는 블랙박스 탐지 방식을 제안한다. 실험 결과, 프롬프트 정보를 활용하는 화이트박스 탐지가 블랙박스 탐지보다 AUC가 최소 0.1 이상 높게 나타났다. 이는 프롬프트가 제로샷 탐지기의 성능에 큰 영향을 미친다는 것을 보여준다.
Stats
요약문 생성 실험에서 블랙박스 탐지 시 AUC가 0.330~0.819 수준이었지만, 화이트박스 탐지 시 AUC가 0.934~1.000으로 크게 향상되었다.
Quotes
"프롬프트 정보를 활용하는 화이트박스 탐지가 블랙박스 탐지보다 AUC가 최소 0.1 이상 높게 나타났다."
"이는 프롬프트가 제로샷 탐지기의 성능에 큰 영향을 미친다는 것을 보여준다."