แนวคิดหลัก
본 논문에서는 기계 생성 텍스트와 인간 작성 텍스트를 구별하기 위해 이벤트 전환과 같은 잠재 공간 변수를 활용하는 새로운 탐지 프레임워크를 제안하며, 이는 기존 탐지기가 취약했던 다양한 생성 설정 및 적대적 공격에 대한 강력성을 보여줍니다.
บทคัดย่อ
잠재 공간 변수를 사용한 기계 생성 장문 콘텐츠 탐지
본 연구는 기존의 zero-shot 탐지 방법들이 텍스트 생성 설정 변화나 적대적 공격에 취약하다는 점을 지적하며, 이러한 한계를 극복하기 위해 텍스트의 잠재 공간 변수를 활용하는 새로운 탐지 프레임워크를 제안합니다.
연구팀은 영화 시놉시스, 뉴스 기사, 과학 논문의 세 가지 글쓰기 작업에서 수집한 데이터셋을 사용하여 실험을 진행했습니다.
기계 생성 텍스트는 Llama3와 GPT-4를 사용하여 생성되었으며, 다양한 프롬프트 변형(직접 생성, 간단한 계획, 복잡한 계획)과 공격 방법(편집, 의역)을 적용했습니다.
잠재 변수로는 품사 태그, 명사/동사, 이벤트 유형 및 이벤트 트리거를 사용했으며, 인간이 작성한 텍스트에서 추출한 잠재 변수 시퀀스를 학습한 경량 트랜스포머 모델을 통해 잠재 공간에서의 차이를 분석했습니다.
또한, 샘플 공간 곡률을 활용하는 Fast-DetectGPT와 샘플 퍼플렉서티를 사용하는 기존 방법들과의 성능 비교를 통해 제안된 방법의 우수성을 입증했습니다.