이 연구는 기계 생성 텍스트(MGT)와 인간 작성 텍스트(HWT)의 혼합인 혼합 텍스트(mixtext)에 대해 다룬다.
먼저 mixtext를 정의하고, 이를 연구하기 위한 새로운 데이터셋 MIXSET을 제안했다. MIXSET에는 MGT와 HWT를 다양한 방식으로 혼합한 3,600개의 샘플이 포함되어 있다.
이후 MIXSET을 활용하여 기존 탐지기의 성능을 평가했다. 실험 결과, 현재 탐지기들은 mixtext를 정확하게 구분하는 데 어려움을 겪는 것으로 나타났다. 특히 미묘한 수정이나 스타일 적응에 취약한 것으로 확인되었다.
이 연구는 mixtext 탐지를 위한 더 정교한 탐지기 개발의 필요성을 강조하며, 향후 연구에 유용한 통찰을 제공한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Qihui Zhang,... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.05952.pdfDybere Forespørgsler