Grunnleggende konsepter
대규모 팟캐스트 데이터셋인 SPoRC를 통해 팟캐스트 생태계의 콘텐츠, 구조, 반응성을 분석하고 이를 통해 사회 과학 및 언어학 연구의 새로운 지평을 열 수 있다.
Sammendrag
SPoRC 데이터셋 소개 및 활용: 팟캐스트 생태계 분석 논문 요약
본 연구 논문에서는 110만 개 이상의 팟캐스트 에피소드를 담은 대규모 데이터셋인 SPoRC (Structured Podcast Research Corpus)를 소개하고, 이를 활용하여 팟캐스트 생태계의 콘텐츠, 구조, 반응성을 분석합니다.
본 연구는 대규모 데이터셋 구축 및 분석을 통해 그동안 연구가 미비했던 팟캐스트 생태계에 대한 이해를 높이고자 합니다. 특히, 팟캐스트 콘텐츠의 주제 분포, 게스트 출연 네트워크 구조, 사회적 사건에 대한 반응성을 분석하여 팟캐스트 생태계의 특징을 심층적으로 탐구합니다.
1. 데이터 수집 및 처리
2020년 5월부터 6월까지 공개 RSS 피드를 통해 제공되는 모든 영어 팟캐스트 에피소드를 수집하여 총 110만 개의 팟캐스트 에피소드 데이터셋 구축
Whisper ASR 시스템을 사용하여 각 에피소드를 텍스트로 변환하고, openSMILE 툴킷을 사용하여 음성 특징 추출
pyannote를 사용하여 화자 분할(diarization) 수행 후, 자체 개발한 모델을 통해 화자 역할(진행자, 게스트, 기타) 분류
2. 팟캐스트 생태계 분석
LDA 토픽 모델링을 사용하여 팟캐스트 에피소드의 주제 분포 분석
게스트 공동 출연 네트워크 분석을 통해 팟캐스트 간의 연결 관계 파악
조지 플로이드 사건을 중심으로 팟캐스트 생태계의 반응성 분석 (주제 분포 변화, 특정 키워드 언급 빈도 분석)