Core Concepts
ソーシャルメディアデータを活用し、大規模データ分析システムを構築することで、リアルタイムに自殺念慮を予測することができる。
Abstract
本研究では、ソーシャルメディアデータを活用した自殺念慮の予測に関する大規模データ分析システムを提案した。
2つのフェーズ(バッチ処理フェーズとリアルタイムストリーミング予測フェーズ)から構成される
バッチ処理フェーズでは、Redditのデータを使ってモデルを構築・最適化した
特徴量抽出手法として、N-gram、TF-IDF、CountVectorizerを組み合わせて検討した
6つのSparkMLアルゴリズム(NB、LR、LinearSVC、DT、RF、MLP)を比較評価した結果、MPLが最も高い精度(93.47%)を達成した
最適化されたMPLモデルをリアルタイムストリーミング予測フェーズで活用し、Twitterのストリーミングデータに適用した
リアルタイム予測の結果、764件のツイートのうち9.29%が自殺念慮ありと判断された
Stats
自殺念慮ありのツイートは764件中71件(9.29%)であった。
自殺念慮なしのツイートは764件中693件(90.71%)であった。