Core Concepts
자동 팩트 체크 시스템의 성능을 향상시키기 위해서는 웹에서 수집된 증거의 신뢰성을 검증하고 필터링하는 것이 중요하다.
Abstract
이 연구는 자동 팩트 체크 시스템에서 사용되는 증거의 신뢰성 검증 및 필터링 문제를 다룬다.
연구진은 "신뢰할 수 있는, 신뢰할 수 없는 또는 유출된(CREDULE)" 데이터셋을 구축했다. 이 데이터셋은 91,632개의 기사로 구성되며, "신뢰할 수 있는", "신뢰할 수 없는", "팩트 체크된(유출된)" 3개의 클래스로 분류된다.
또한 연구진은 증거 검증 및 필터링 네트워크인 EVVER-Net을 제안했다. EVVER-Net은 CREDULE 데이터셋으로 학습되어 웹에서 수집된 증거가 신뢰할 수 있는지, 신뢰할 수 없는지, 유출된 것인지를 판단할 수 있다.
실험 결과, EVVER-Net은 도메인 신뢰도 점수를 활용할 경우 최대 94.4%의 정확도를 달성했다.
연구진은 LIAR-PLUS, MOCHEG, FACTIFY, NewsCLIPpings+, VERITE 등 널리 사용되는 팩트 체크 데이터셋의 증거를 분석했다. 분석 결과, 이러한 데이터셋에는 유출되거나 신뢰할 수 없는 증거가 상당량 포함되어 있음을 확인했다.
Stats
"Obama, Out of Office 10 Days, Speaks Out Against Immigration Ban" (출처: nytimes.com)
"Obama Rejects Trump Immigration Orders, Backs Protests" (출처: nbcnews.com)
"Did President Obama Ban Muslims from Entering the United States in 2011?" (출처: snopes.com)
"MORE HYPOCRISY: Obama Banned all Iraqi Refugees for 6 Months in 2011 – Liberals SAID NOTHING" (출처: thegatewaypundit.com)
Quotes
"Automated fact-checking (AFC) is garnering increasing attention by researchers aiming to help fact-checkers combat the increasing spread of misinformation online."
"One overlooked challenge involves the reliance on "leaked evidence", information gathered directly from fact-checking websites and used to train AFC systems, resulting in an unrealistic setting for early misinformation detection."
"Similarly, the inclusion of information from unreliable sources can undermine the effectiveness of AFC systems."