Core Concepts
化学名エンティティ認識モデルにおけるジェンダーバイアスの重要性と影響を明確に示す。
Abstract
化学名エンティティ認識(NER)モデルは、下流タスクで使用される。
性別関連のパフォーマンス格差が顕著であることが明らかになった。
合成データとRedditからの自己申告された性別情報を使用して、ジェンダーバイアスを測定する枠組みを開発した。
多くのバイオメディカルNERモデルに偏りがあることが明らかになった。
女性関連の名前が特定の薬剤と間違って分類されていることが示唆された。
1. 概要
この研究では、化学名エンティティ認識(NER)モデルにおけるジェンダーバイアスを包括的に評価しました。合成データと実世界の自己申告されたデータを比較し、女性関連の名前が薬剤として誤って分類されていることが明らかになりました。
2. 導入
化学NERシステムは、男性関連データよりも女性関連データで優れたパフォーマンスを示すことが多い。
バイオメトリクスや医療文書マイニングなど、さまざまな下流タスクで重要です。
3. 関連作業
CHEMDNERコーパスやCDRなど、ラベル付きデータセットは化学NER向けに広く利用されています。
文字埋め込みやBERTなど、さまざまな埋め込み手法が提案されています。
4. 結果
FlairやBERTベースの方法は単語埋め込みよりも優れたパフォーマンスを示しました。
女性関連名前は薬剤として誤って分類されている可能性が高いことが示唆されました。
Stats
合成データでは女性関連名前が薬剤として分類されている可能性あり。