Core Concepts
정치 과학 연구에서 정치 블로그의 광범위한 사용을 고려하여, Pollux 검색 시스템에 정치 블로그를 포함시켜 이용 가능한 정보 인프라를 향상시켰다.
Abstract
이 기술 보고서는 독일의 정치 과학 전문 정보 서비스(FID) Pollux에 정치 블로그를 통합하는 과정을 설명한다.
RSS 피드 수집:
SUUB와 GESIS가 제공한 정치 과학 블로그 URL 목록을 사용하여 RSS 피드 목록을 생성했다.
자동 및 수동 검사를 통해 290개의 RSS 피드를 확인했다.
7개월 동안 주간 단위로 RSS 피드를 다운로드하여 22,739개의 항목을 수집했다.
블로그 데이터 분석:
피드 수준 데이터와 항목 수준 데이터의 메타데이터 품질과 가용성을 평가했다.
피드 수준에서는 제목, 부제, URL 등의 메타데이터가 대부분 양호했다.
항목 수준에서는 제목, 링크, 게시일 등의 메타데이터가 양호했지만, 내용과 태그는 일관성이 낮았다.
요약 필드가 가장 일관성 있게 제공되어 이를 Pollux의 초록으로 사용하기로 했다.
Pollux 통합 파이프라인:
RSS 피드 다운로드, 변환, Pollux 데이터베이스 통합 등의 과정을 자동화했다.
블로그 피드와 항목을 논문 및 저널 레코드와 유사한 구조로 통합했다.
블로그 포스트 주제 분석:
2023년 7월부터 10월까지의 블로그 포스트 요약을 사용하여 토픽 모델링을 수행했다.
시각화를 통해 미국 중심 주제, 글로벌 주제, 유럽 중심 주제 등을 확인했다.
시간에 따른 주제 변화를 분석하여 COVID-19, 우크라이나 전쟁, AI 관련 주제의 변화를 확인했다.
Stats
2023년 7월부터 10월까지 수집된 블로그 포스트 수는 22,739개이다.
블로그 포스트 요약에서 추출된 주요 주제로는 미국 정치, 기후 변화, 유럽 연합 등이 있다.
시간에 따른 주제 변화 분석 결과, COVID-19, 우크라이나 전쟁, AI 관련 주제의 변화가 관찰되었다.
Quotes
"정치 블로그는 정치 과학 연구에 널리 사용된다."
"정치 블로그를 통한 의사소통은 전반적인 거버넌스의 책임성과 투명성을 높일 수 있다."
"정치 블로거들은 자신의 플랫폼을 주로 의견 표현, 동원, 피드백 요청, 정보 전파에 활용한다."