이 연구는 기계 생성 콘텐츠와 사용자 생성 콘텐츠를 구분하기 위해 다양한 데이터셋을 활용하여 비교 분석을 수행하였다.
먼저 3가지 데이터셋(시, 에세이, 초록)을 수집하고 정제하였다. 각 데이터셋에 대해 기계 생성 콘텐츠와 사용자 생성 콘텐츠의 언어적, 감정적, 도덕적 특성을 분석하였다.
분석 결과, 기계 생성 콘텐츠는 사용자 생성 콘텐츠에 비해 더 복잡한 어휘와 문장 구조를 사용하지만, 단어 다양성은 낮은 것으로 나타났다. 또한 기계 생성 콘텐츠는 더 긍정적인 감정을 표현하고 해악 관련 덕목과 악덕을 더 많이 포함하는 반면, 사용자 생성 콘텐츠는 권위 관련 덕목과 일반적인 도덕성 논의에 더 초점을 맞추는 것으로 나타났다.
이어서 8가지 전통적인 기계 학습 알고리즘을 활용하여 기계 생성 콘텐츠와 사용자 생성 콘텐츠를 구분하는 실험을 수행하였다. 그 결과 95% 이상의 높은 정확도로 두 유형의 콘텐츠를 구분할 수 있음을 확인하였다. 특히 단어 임베딩 기반 특징이 가장 중요한 역할을 하는 것으로 나타났다.
이 연구는 기계 생성 콘텐츠와 사용자 생성 콘텐츠의 특성을 다각도로 분석하고, 전통적인 기계 학습 기법의 우수한 성능을 입증하였다는 점에서 의의가 있다. 향후 연구에서는 도메인 특화 언어 모델을 활용한 추가 실험이 필요할 것으로 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yaqi Xie,Anj... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19725.pdfDeeper Inquiries