Core Concepts
オンラインの性差別的虐待を自動的に検出し、軽減するための効果的なアプローチの開発
Abstract
本研究は、ヒンディー語、タミル語、インド英語のオンラインコンテンツにおける性差別的虐待の検出と軽減に取り組んでいる。
オンラインの性差別的虐待は深刻な問題であり、特に女性やジェンダー少数者の自由な表現と参加を阻害している。
研究チームは、ICON2023の「インド語におけるジェンダー虐待検出」共同課題に参加し、CNN-BiLSTMのアンサンブルモデルを開発した。
このモデルは、局所的な特徴と長期的な依存関係を効果的にモデル化し、ノイズの多い実世界のテキストデータにおいても優れた性能を発揮した。
実験の結果、単語埋め込み手法や前処理の工夫が検出性能の向上に寄与することが示された。
このアプローチは、インド語ユーザーが直面するサイバーハラスメントに対処するための有望な手段となる。
研究チームはデータセットとモデルコードをオープンソース化し、この重要な問題に対する研究の促進を目指している。
Stats
英語データセットには6,531件の投稿が含まれている。
ヒンディー語データセットには6,197件の投稿が含まれている。
タミル語データセットには6,778件の投稿が含まれている。
Quotes
"オンラインの性差別的ハラスメントは、女性やジェンダー少数者のオンラインでの自由な表現と参加を制限する広範な問題である。"
"オンラインの性差別的暴力は、社会的・経済的な脆弱性を加速させ、特にインド語話者に深刻な影響を及ぼしている。"
"これらの有害な影響は、精神的健康の悪化や人間関係の悪化など、長期的な影響を及ぼす可能性がある。"