核心概念
オンラインヘイトスピーチとサイバーいじめの問題を解決するため、コード混在のHinglishでの女性蔑視コメントに関する新しい洞察を提供する。
要約
この研究は、YouTube動画から収集されたコード混在Hinglishでの女性蔑視検出用の新しいデータセットに焦点を当てています。EDA技術が使用され、データセットの特性やパターンに洞察を得ることが目的です。さまざまなEDA技術が適用され、コメントの長さや感情スコアなど、有益な情報が明らかにされました。PCAにより3つのクラスターが特定され、コード混在コメントが別々にクラスタリングされました。今後は機械学習および深層学習モデルのトレーニングと評価と並行して重要な要因を明らかにするための追加分析が行われます。
イントロダクション
オンラインプラットフォームで発生しているサイバーいじめやヘイトスピーチ問題へのNLP技術活用
データセット
YouTube動画から収集されたデータセット詳細とクラスごとのコメント数
探索的データ分析(EDA)
データ前処理やWord Cloud、Sentiment Analysis、PCAなど多岐にわたるEDA技術
結果と考察
EDA技術が有益な洞察を提供し、女性蔑視コメントは一般的に非女性蔑視コメントよりも長いことが示唆されました。
統計
コメント数は181件である「MGY」クラスが存在します。
平均単語数は「MGY」クラスでは32.72で、「NOT」クラスでは19.91です。