Основные понятия
감성 분석을 통해 추출한 특징을 이용하여 랜덤 포레스트 알고리즘으로 ChatGPT와 인간 작성 과학 텍스트를 구분할 수 있다.
Аннотация
이 연구에서는 ChatGPT와 인간이 작성한 과학 텍스트를 구분하기 위한 새로운 방법론을 제안한다. 4가지 감성 분석 사전을 사용하여 특징을 추출하고, 이를 랜덤 포레스트 분류 모델의 입력으로 사용하였다.
데이터 준비 과정에서 68개의 "New Phytologist" 저널 논문 제목과 초록을 수집하고, ChatGPT v3.5를 이용하여 이에 해당하는 초록을 생성하였다. 전처리 과정을 거쳐 단어 빈도 분석, 감성 분석 기반 특징 엔지니어링을 수행하였다.
랜덤 포레스트 모델 학습 결과, 정확도 84.14%, Kappa 통계량 0.6827 등 우수한 성능을 보였다. 이는 감성 분석 기반 특징이 ChatGPT와 인간 작성 텍스트를 효과적으로 구분할 수 있음을 보여준다.
향후 연구에서는 GPT-4 등 최신 LLM을 대상으로 확장 적용하고, 다른 특징 기반 접근법과의 결합 등을 통해 성능 향상을 모색할 계획이다.
Статистика
전체 문서 수: 145개
ChatGPT 생성 문서: 73개
인간 작성 문서: 72개
Цитаты
"Large Language Models (LLMs), such as ChatGPT, do not currently satisfy our authorship criteria"
"For every computer scientist it is very well known the Turing Test, or the Imitation Game, as Alan Turing called it, as a milestone where we could acknowledge that Artificial Intelligence is really here."
"The social, industrial, cultural and academic impact of the coming of this new technology is believed to be deep"