Core Concepts
학술 논문 초록을 대상으로 ChatGPT 생성 콘텐츠의 탐지 가능성을 종합적으로 연구하고, 이를 위한 효과적인 탐지 프레임워크를 제안한다.
Abstract
이 연구는 ChatGPT 생성 콘텐츠의 탐지 가능성을 학술 논문 초록을 대상으로 종합적으로 조사하였다.
첫째, GPABench2라는 대규모 벤치마크 데이터셋을 구축하였다. 이 데이터셋은 컴퓨터 과학, 물리학, 인문사회과학 분야의 인간 작성 초록과 ChatGPT 생성 초록(전체 작성, 부분 완성, 교정)을 포함한다.
둘째, 기존 ChatGPT 탐지 도구와 인간 평가자의 성능을 분석하였다. 기존 도구들은 ChatGPT 생성 초록, 특히 교정된 초록을 탐지하는 데 어려움을 겪었다. 인간 평가자 또한 ChatGPT 생성 초록과 인간 작성 초록을 구분하는 데 어려움을 겪었다.
셋째, CheckGPT라는 딥러닝 기반의 ChatGPT 탐지 프레임워크를 제안하였다. CheckGPT는 RoBERTa 기반의 언어 모델과 LSTM 기반의 분류기로 구성되며, 99% 이상의 탐지 정확도를 달성하였다. CheckGPT는 모델 독립적이며 경량화되어 있어 실용적이다.
Stats
학술 논문 초록은 객관적이고 공식적이며 초점이 뚜렷하여 ChatGPT 생성 콘텐츠를 탐지하기 어렵다.
기존 ChatGPT 탐지 도구는 ChatGPT 생성 초록, 특히 교정된 초록을 탐지하는 데 어려움을 겪는다.
인간 평가자 또한 ChatGPT 생성 초록과 인간 작성 초록을 구분하는 데 어려움을 겪는다.
Quotes
"ChatGPT 출력은 일반적으로 더 객관적이고, 공식적이며, 초점이 뚜렷하고, 유창하다."
"기존 ChatGPT 탐지기의 성능은 modest to poor이며, 특히 Task 3(GPT-polished)에서 크게 저하된다."