Core Concepts
프롬프트 엔지니어링을 통해 AI 생성 텍스트 탐지기를 우회할 수 있다.
Abstract
이 논문은 AI 생성 텍스트 탐지 기술의 신뢰성을 평가하고 있다. 주요 내용은 다음과 같다:
세 가지 AI 생성 텍스트 탐지기(Kirchenbauer 등의 워터마킹, ZeroGPT, GPTZero)를 사용하여 인간 작성 및 AI 생성 에세이를 분류했다.
워터마킹은 높은 거짓 양성률을 보였고, ZeroGPT는 높은 거짓 양성률과 거짓 음성률을 보였다.
ChatGPT 3.5를 사용하여 원본 AI 생성 텍스트를 문장 바꾸기로 재작성하면 모든 탐지기의 거짓 음성률을 크게 높일 수 있었다.
문장 임베딩 유사도 분석 결과, 재작성된 텍스트는 원본 의미를 잘 유지하고 있었다.
이 연구 결과는 현재 사용되는 AI 생성 텍스트 탐지기의 신뢰성에 문제가 있음을 보여준다. 특히 학생들이 ChatGPT로 작성한 과제를 탐지하는 데 사용되는 이러한 탐지기는 부정확할 수 있으며, 이는 학생들에게 심각한 피해를 줄 수 있다.
Stats
인간 작성 에세이 212개, AI 생성 에세이 208개를 사용했다.
워터마킹 기법의 거짓 양성률은 평균 20.96%였다.
ZeroGPT의 거짓 양성률은 24.64%, 거짓 음성률은 19.14%였다.
GPTZero의 거짓 양성률은 0%, 거짓 음성률은 2.5%였다.
문장 바꾸기 공격으로 워터마킹의 거짓 음성률을 91.55%까지 높일 수 있었다.
문장 복잡도 높이기 공격으로 ZeroGPT의 거짓 음성률을 89.64%까지 높일 수 있었다.
Quotes
"현재 사용되는 AI 생성 텍스트 탐지기의 신뢰성에 문제가 있다."
"학생들이 ChatGPT로 작성한 과제를 탐지하는 데 사용되는 이러한 탐지기는 부정확할 수 있으며, 이는 학생들에게 심각한 피해를 줄 수 있다."