מושגי ליבה
본 연구는 다양한 주제와 플랫폼에 걸쳐 정밀한 가짜뉴스 탐지를 위한 지식 강화 데이터셋 FineFake를 제안한다. FineFake는 다양한 주제와 플랫폼에서 수집된 16,909개의 데이터 샘플로 구성되며, 각 뉴스 기사에는 다중 모달 콘텐츠, 잠재적 소셜 컨텍스트, 반자동 검증된 일반 지식, 그리고 기존의 이진 레이블을 넘어서는 정밀한 주석이 포함되어 있다.
תקציר
본 연구는 가짜뉴스 탐지를 위한 새로운 다도메인 지식 강화 벤치마크 데이터셋 FineFake를 제안한다. FineFake는 다음과 같은 특징을 가진다:
- 6개의 주제와 8개의 플랫폼에 걸쳐 16,909개의 데이터 샘플을 포함한다.
- 각 뉴스 기사에는 다중 모달 콘텐츠, 잠재적 소셜 컨텍스트, 반자동 검증된 일반 지식이 포함되어 있다.
- 기존의 이진 레이블을 넘어서는 정밀한 6가지 주석 체계를 도입하여, 가짜뉴스의 근본 원인을 규명한다.
이를 바탕으로 3가지 도전적인 과제를 제시하고, 지식 강화 도메인 적응 네트워크 모델을 제안한다. 실험 결과는 FineFake 데이터셋이 향후 가짜뉴스 탐지 연구에 유용한 벤치마크가 될 수 있음을 보여준다.
סטטיסטיקה
뉴스 기사의 평균 단어 수는 222.03개이다.
뉴스 기사당 평균 2.58개의 외부 지식 엔티티가 추출되었다.
전체 데이터셋에서 실제 뉴스와 가짜뉴스의 비율은 약 62:38이다.
ציטוטים
"현대 디지털 사회에서 소셜 미디어는 뉴스에 접근하는 주요 매체로 자리잡았으며, 이는 거짓 정보 전파를 위한 최적의 환경이 되고 있다."
"기존 가짜뉴스 탐지 데이터셋은 단일 주제 또는 단일 플랫폼에 국한되어 있어, 실제 시나리오에서 나타나는 다도메인 뉴스의 다양성을 포착하지 못하고 있다."
"정확한 보조 지식과 정밀한 주석은 가짜뉴스의 근본 원인을 규명하고 다도메인 탐지 성능을 향상시키는 데 필수적이다."