이 연구는 인공지능 생성 텍스트(deepfake 텍스트)와 인간 작성 텍스트의 저자 귀속 분석을 위한 TOPFORMER 모델을 제안한다.
TOPFORMER는 변형 기반 모델(RoBERTa)과 위상 데이터 분석(TDA) 기법을 결합한 모델이다. 변형 기반 모델은 텍스트의 문맥적 표현을 캡처하고, TDA는 데이터의 형태와 구조를 포착한다. 이를 통해 TOPFORMER는 기존 모델보다 더 정확하게 인공지능 생성 텍스트와 인간 작성 텍스트를 구분할 수 있다.
실험 결과, TOPFORMER는 OpenLLMText, SynSciPass, Mixset 데이터셋에서 기존 모델들을 능가하는 성능을 보였다. 특히 다양한 스타일의 텍스트로 구성된 데이터셋에서 TOPFORMER의 성능이 두드러졌다. 이는 TDA가 노이즈가 있는 데이터에서도 텍스트의 구조적 특징을 잘 포착할 수 있기 때문이다.
추가 분석을 통해 TOPFORMER의 성능 향상이 단순한 노이즈 추가가 아닌 유의미한 특징 추출에 기인함을 확인했다. 또한 TOPFORMER는 균일한 데이터셋에서도 기존 모델과 유사한 성능을 보여, 범용적으로 활용될 수 있음을 시사한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies