핵심 개념
트위터 데이터를 활용하여 국가 단위의 대표성 있는 사용자 표본을 생성하는 다양한 방법들을 비교하고, 그 중 가장 효과적인 방법을 제시한다.
초록
이 연구는 트위터 데이터를 활용하여 국가 단위의 대표성 있는 사용자 표본을 생성하는 다양한 방법을 비교한다. 4가지 주요 방법(1% 스트림, 국가 쿼리, 언어 쿼리, 경계 상자)을 사용하여 미국 트위터 사용자 데이터를 수집하고, 트윗 수준, 계정 수준, 인구 수준의 다양한 지표로 이를 비교한다.
결과적으로 1% 스트림 방식이 가장 대표성 있는 표본을 생성하는 것으로 나타났다. 1% 스트림 방식은 다른 방법들에 비해 트윗 수, 계정 활동성, 팔로워/팔로잉 수 등에서 차이를 보였다. 또한 인구 추정 정확도 측면에서도 1% 스트림 방식이 가장 우수한 성과를 보였다.
경계 상자 방식은 1% 스트림 방식의 대안으로 고려될 수 있는데, 인구 추정 정확도 측면에서 1% 스트림 방식에 근접한 성과를 보였다. 이 연구 결과는 향후 트위터 데이터를 활용한 사회과학 연구와 기계학습 모델 개발에 유용한 시사점을 제공한다.
통계
1% 스트림 방식의 트윗 수는 174,084개로 다른 방식들(18,181,424개, 18,804,550개, 4,508,702개)에 비해 매우 적다.
1% 스트림 방식의 계정당 평균 트윗 수는 1.847개로 다른 방식들(24.974개, 25.46개, 10.608개)에 비해 매우 낮다.
1% 스트림 방식의 계정당 평균 팔로워 수는 911.3명으로 다른 방식들(683.6명, 668.1명, 712.4명)에 비해 높다.
1% 스트림 방식의 계정당 평균 팔로잉 수는 1059.6명으로 다른 방식들(804.2명, 795.6명, 870.1명)에 비해 높다.
인용구
"Twitter data has been widely used by researchers across various social and computer science disciplines."
"One of the key challenges in working with Twitter data is to obtain a random sample of users from a country."
"The goal is usually to get a platform or population-representative sample of users."