이 연구는 블루스카이 소셜 데이터 세트를 소개한다. 블루스카이는 2023년 2월에 출시된 새로운 탈중앙화 온라인 소셜 플랫폼으로, 최근 개발자들에게 API를 공개하여 연구자들이 활용할 수 있는 데이터를 제공하고 있다.
이 데이터 세트에는 400만 명 이상의 사용자(전체 등록 사용자의 81%)와 2억 3500만 건의 게시물 내역이 포함되어 있다. 또한 팔로우, 댓글, 리포스트, 인용 등의 상호작용 데이터도 제공된다. 블루스카이는 사용자가 콘텐츠 추천 알고리즘인 피드 생성기를 만들고 북마크할 수 있는 기능을 제공하는데, 이 데이터 세트에는 이러한 피드 생성기의 출력과 해당 게시물에 대한 좋아요 정보도 포함되어 있다.
이 데이터 세트를 통해 온라인 행동과 인간-기계 상호작용 패턴에 대한 전례 없는 분석이 가능하다. 특히 콘텐츠 노출과 자기 선택의 영향, 콘텐츠 바이럴과 확산 분석 등을 수행할 수 있다.
데이터 수집 및 처리 과정에서는 사용자 익명성 보호를 위해 사용자 이름을 숫자 ID로 대체하고, 게시물 URI 등 개인 식별 정보를 제거하는 등의 조치를 취했다. 또한 게시물의 언어, 감정 분석 등 추가 처리를 수행했다.
데이터 분석 결과, 블루스카이 네트워크는 전형적인 소셜 네트워크 구조를 보이며, 게시물 상호작용 네트워크를 통해 콘텐츠 확산 패턴을 분석할 수 있다. 또한 피드 북마크 및 좋아요 데이터를 통해 주제별 관심사와 인기 콘텐츠를 파악할 수 있다. 특히 2023년 7월 중순 기간 동안 플랫폼 내 인종차별 논란이 있었음을 주제 모델링을 통해 확인할 수 있었다.
이 데이터 세트는 온라인 행동 및 인간-AI 상호작용 연구에 유용할 것으로 기대된다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Andrea Faill... في arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.18984.pdfاستفسارات أعمق