언어학적 특성(통계, 가독성, 문체, 어휘 다양성, 수사 구조, 개체 격자)과 사전 훈련된 언어 모델 임베딩을 결합하여 기계 생성 텍스트와 인간 작성 텍스트를 효과적으로 구분할 수 있다.
대규모 언어 모델의 인코더 임베딩을 활용하여 다양한 생성기와 도메인에 걸쳐 기계 생성 텍스트를 효과적으로 탐지할 수 있는 일반화된 접근 방식을 제안한다.
기계 생성 텍스트(MGT)와 인간 작성 텍스트(HWT)의 혼합인 혼합 텍스트(mixtext)를 효과적으로 탐지하는 것이 현재 탐지기의 주요 과제이다.
본 논문은 다양한 생성기에서 생성된 텍스트를 정확하게 탐지하기 위해 클래스 균형 가중치 손실 함수와 소프트 투표 모델 앙상블을 제안한다.
대조 학습을 통해 기계 생성 텍스트를 효과적으로 탐지할 수 있음을 보여줌
기계 생성 텍스트를 효과적으로 탐지하기 위해 인간 저자의 텍스트에서 학습한 스타일 표현을 활용할 수 있다. 이러한 스타일 표현은 새로운 언어 모델이 등장하더라도 강건하게 작동하며, 특정 언어 모델이 생성한 텍스트를 식별할 수 있다.
SemEval-2024 Task 8에 참여한 MasonTigers 팀은 주로 판별자 트랜스포머 모델의 앙상블, 문장 트랜스포머, 통계적 기계 학습 기법을 활용하여 우수한 성능을 달성했다. 또한 FLAN-T5의 제로샷 프롬팅과 파인튜닝을 활용하여 Track A와 B에서 좋은 결과를 얻었다.
GPT-who는 통계 기반 다중 클래스 기계 생성 텍스트 탐지기로, 균일 정보 밀도(UID) 기반 특징을 활용하여 다양한 언어 모델과 인간 저자의 고유한 통계적 서명을 모델링하고 정확한 저자 귀속을 수행한다.