本技術レポートでは、ドイツの政治科学専門情報サービス(FID)であるPolluxに政治ブログを統合する取り組みについて説明する。
まず、RSS フィードのリストを生成するプロセスを説明する。既存のURLリストを活用し、自動および手動でRSSフィードを特定した。次に、収集したRSSフィードのデータ構造を分析し、フィードレベルとエントリーレベルのメタデータの質と利用可能性を評価した。
その後、ブログの統合パイプラインについて詳述する。RSSフィードをダウンロードし、Polluxのエントリー形式に変換するプロセスを説明する。
最後に、統合されたブログエントリーのトピック分析の結果を示す。トピックモデリング手法BERTtopicを用いて、ブログ記事のサマリーから主要なトピックを抽出し、時系列変化と記事間の関係性を可視化した。
この取り組みにより、政治科学研究者がPolluxを通じてより幅広い情報源にアクセスできるようになった。
翻譯成其他語言
從原文內容
arxiv.org
深入探究