이 연구는 기계 생성 텍스트 탐지에 대한 체계적인 연구를 수행한다. 먼저 최신 접근 방식의 효과성을 평가하고, 이들이 실제 세계의 다양한 생성기와 도메인에 걸쳐 일반화되지 못함을 보여준다. 또한 사전 학습된 대규모 언어 모델의 인코더 임베딩을 활용하여 기계 생성 텍스트와 인간 생성 텍스트를 구별할 수 있는 가능성을 확인한다.
이를 바탕으로 T5LLMCipher라는 새로운 시스템을 제안한다. T5LLMCipher는 사전 학습된 T5 인코더와 대규모 언어 모델 임베딩 서브클러스터링을 결합하여 실제 세계의 다양한 생성기와 도메인에 걸쳐 기계 생성 텍스트를 탐지한다. 9개의 기계 생성 텍스트 시스템과 9개의 도메인에 걸쳐 평가한 결과, T5LLMCipher는 최신 감독 학습 접근 방식에 비해 보이지 않은 생성기와 도메인에서 평균 11.9% 더 높은 F1 점수를 보이며, 생성기 귀속 정확도 93.6%를 달성했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Mazal Bethan... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2401.09407.pdfDomande più approfondite