Core Concepts
소셜 미디어 봇 탐지 모델을 구축하여 2020년 미국 대선 기간 동안의 온라인 담론에서 봇 활동을 분석하였다.
Abstract
이 연구에서는 다중 플랫폼 소셜 봇 탐지기 "BotBuster For Everyone"을 구축하였다. 이 모델은 트위터, 레딧, 인스타그램 등 3개의 주요 플랫폼에서 봇 계정을 식별할 수 있다.
모델 구축 과정은 다음과 같다:
데이터 입력 단계: 각 플랫폼의 데이터 필드를 통일하는 과정
특징 추출 단계: 사용자명, 프로필 설명, 게시물 메타데이터 등 6개 데이터 필드에서 특징을 추출
개별 모델 분류 단계: 각 데이터 필드별로 최적의 트리 기반 분류기를 선정하여 훈련
결합 집계 단계: 개별 모델의 봇/인간 확률을 평균하여 최종 분류 결정
이 모델은 데이터 필드가 불완전한 경우에도 예측이 가능하며, 플랫폼 간 일반화가 가능하다는 장점이 있다. 또한 분류 임계값 설정이 필요 없어 분류 결과의 모호성을 해결하였다.
이 모델을 2020년 미국 대선 기간 동안의 트위터와 레딧 데이터에 적용한 결과, 레딧에서 더 높은 비율의 봇 활동이 관찰되었다. 봇 계정과 인간 계정이 생성한 게시물의 주제 분석을 통해 봇 계정이 우편투표 부정 등의 허위 정보를 확산시키고, 인간 계정은 이에 대한 대응을 주장하는 것으로 나타났다.
Stats
레딧 데이터에서 봇 계정이 35.04%를 차지하는 반면, 트위터에서는 29.45%를 차지한다.
봇 계정은 우편투표 부정 등의 허위 정보를 확산시키는 경향이 있다.
인간 계정은 선거 부정에 대한 대응을 주장하는 경향이 있다.