Centrala begrepp
이 연구는 전문가 기관에 의해 신뢰할 수 없는 것으로 분류된 17개의 프랑스 언론 출처에서 선별된 100개의 문서로 구성된 OBSINFOX 데이터셋을 소개한다. 8명의 주석자가 11개의 레이블을 사용하여 문서를 주석했으며, 이를 통해 가짜 뉴스로 간주되는 특징을 파악하고 자동 분류기의 예측과 비교할 수 있었다.
Sammanfattning
이 연구는 프랑스 언론에서 가짜 뉴스로 간주되는 문서들로 구성된 OBSINFOX 데이터셋을 소개한다. 100개의 문서를 8명의 주석자가 11개의 레이블로 주석했으며, 이를 통해 가짜 뉴스의 특징을 파악하고 자동 분류기의 예측과 비교할 수 있었다.
데이터셋 구축 과정:
- 전문가 기관에 의해 신뢰할 수 없는 것으로 분류된 17개의 프랑스 언론 출처에서 100개의 문서 선별
- 8명의 주석자가 11개의 레이블(가짜 뉴스, 날짜/장소/인물, 사실, 의견, 주관적, 보고된 정보, 출처 인용, 거짓 정보, 암시, 과장, 이상한 제목)로 문서 주석
- 주석 결과 분석을 통해 가짜 뉴스 판단에 영향을 미치는 특징 파악
데이터셋 분석 결과:
- 주제 및 장르 분석: 정치, 보건 안전 관련 주제가 많으며 풍자적 스타일의 기사가 절반 가량
- 주석자 간 일치도 분석: 전반적으로 중간 수준의 일치도를 보였으며, "사실", "주관적" 레이블에서 높은 일치도
- 레이블 간 상관관계 분석: "주관적", "의견", "암시", "과장", "가짜 뉴스", "거짓 정보" 레이블 간 상관관계 높음
- 언어적 주관성과 "가짜 뉴스" 레이블 간 관계 분석: 주관성 지표와 "주관적", "의견", "과장" 레이블은 상관관계 있지만 "가짜 뉴스" 레이블과는 약한 상관관계
Statistik
이 데이터셋은 전문가 기관에 의해 신뢰할 수 없는 것으로 분류된 17개의 프랑스 언론 출처에서 선별된 100개의 문서로 구성되어 있다.
8명의 주석자가 11개의 레이블로 문서를 주석했으며, 주석자 간 중간 수준의 일치도를 보였다.
주제 및 장르 분석 결과, 정치, 보건 안전 관련 주제가 많으며 풍자적 스타일의 기사가 절반 가량을 차지했다.
언어적 주관성 지표와 "주관적", "의견", "과장" 레이블 간 상관관계가 있었지만, "가짜 뉴스" 레이블과는 약한 상관관계를 보였다.
Citat
"이 연구는 전문가 기관에 의해 신뢰할 수 없는 것으로 분류된 17개의 프랑스 언론 출처에서 선별된 100개의 문서로 구성된 OBSINFOX 데이터셋을 소개한다."
"8명의 주석자가 11개의 레이블로 문서를 주석했으며, 이를 통해 가짜 뉴스로 간주되는 특징을 파악하고 자동 분류기의 예측과 비교할 수 있었다."
"주제 및 장르 분석 결과, 정치, 보건 안전 관련 주제가 많으며 풍자적 스타일의 기사가 절반 가량을 차지했다."