Concetti Chiave
본 연구는 온라인 상에서 증가하는 가짜 뉴스와 독싱의 위협을 효과적으로 탐지하고 개인 정보를 보호하기 위해 설명 가능한 AI 기반 시스템인 FNDEX를 제안하고 그 성능을 평가합니다.
Sintesi
FNDEX: 설명 가능한 AI를 이용한 가짜 뉴스 및 독싱 탐지 연구 논문 요약
인터넷과 소셜 미디어의 발달은 정보 공유의 접근성을 높였지만, 가짜 뉴스와 독싱과 같은 새로운 유형의 사이버 범죄를 야기했습니다. 가짜 뉴스는 여론 조작, 사회적 불신, 심지어 폭력까지 초래할 수 있는 심각한 문제입니다. 독싱은 개인 정보를 악의적으로 공개하여 피해자에게 온라인 및 오프라인에서 피해를 입히는 행위입니다.
본 연구에서는 가짜 뉴스와 독싱을 동시에 다루는 새로운 시스템인 FNDEX (Fake News and Doxxing Detection with Explainable Artificial Intelligence)를 제안합니다. FNDEX는 세 가지 트랜스포머 모델을 활용하여 가짜 뉴스와 독싱을 효과적으로 탐지하고, 익명화 기술을 통해 개인 정보를 보호하며, 설명 가능한 AI (XAI)를 통해 시스템의 투명성과 신뢰성을 확보합니다.
데이터셋
가짜 뉴스 탐지: Kaggle 데이터셋 활용 (가짜 뉴스 기사 23,481개, 실제 뉴스 기사 21,417개)
독싱 탐지: Younes et al. [30] 연구에서 사용된 트윗 데이터셋 활용 (독싱 콘텐츠 1,456개, 비독싱 콘텐츠 863개)
모델 학습
텍스트 전처리: 토큰화, 표제어 추출, 불용어 제거, 구두점 제거, 레이블 인코딩
트랜스포머 모델 학습: BERT, DistilBERT, RoBERTa 모델을 각각 가짜 뉴스 탐지 및 독싱 탐지 작업에 대해 미세 조정
익명화
패턴 기반 개인 식별 정보 (PII) 익명화 방법 사용
이름, 이메일, 전화번호, 주소, 신용 카드 번호 등 다양한 PII 패턴을 식별하고 익명화된 자리 표시자로 대체
설명 가능성
LIME (Local Interpretable Model-Agnostic Explanations) 알고리즘 사용
모델 예측에 가장 큰 영향을 미치는 단어 또는 구문을 강조하여 사용자에게 설명 가능한 정보 제공