Konsep Inti
본 논문에서는 인간이 작성한 뉴스와 기계가 생성한 뉴스를 구분하는 새로운 과제를 제시하고, 우르두어로 작성된 가짜 뉴스를 탐지하기 위한 계층적 접근 방식을 제안합니다.
Abstrak
우르두어 가짜 뉴스 탐지 연구 논문 요약
본 논문은 인간 작성 뉴스와 기계 생성 뉴스를 구분하는 새로운 과제를 제시하고 우르두어 가짜 뉴스 탐지 성능 향상을 위한 계층적 접근 방식을 제안하는 연구 논문입니다.
기존 이진 분류 방식을 넘어 기계 생성 뉴스까지 포함하는 새로운 가짜 뉴스 탐지 방식 제시
저자원 언어인 우르두어에 특화된 가짜 뉴스 탐지 모델 개발
데이터셋 구축: 기존 우르두어 가짜 뉴스 데이터셋 4개(Ax-to-Grind Urdu, UFN2023, UFN Augmented Corpus, Bend the Truth)에 GPT-4o를 이용하여 생성한 기계 작성 뉴스를 추가하여 4개의 레이블(인간 작성 진짜 뉴스, 인간 작성 가짜 뉴스, 기계 생성 진짜 뉴스, 기계 생성 가짜 뉴스)을 가진 데이터셋 구축
계층적 탐지 모델 제안: 기계 생성 텍스트 탐지와 가짜 뉴스 탐지 두 가지 하위 작업으로 분류 문제를 세분화하여 계층적 모델 설계
모델 성능 비교: 선형 서포트 벡터 머신(LSVM), Xlm-ROBERTa-base 모델과 제안된 계층적 모델의 성능을 정확도 및 F1 점수를 기준으로 비교 평가