核心概念
フェアな表現学習(FRL)に対する初のデータ毒性攻撃が提案されました。
摘要
最近の研究では、フェアな機械学習方法に対する脆弱性が明らかになってきています。この研究は、深層ニューラルネットワークによるフェア表現学習(FRL)を攻撃する初のデータ毒性フレームワークを提案しています。この攻撃は、訓練データに注意深く作成された毒性サンプルを注入することで、不公平な表現を出力させることを目的としています。具体的には、相互情報量(MI)を最大化することで攻撃目標を達成しようとします。この攻撃は効果的であり、既存の手法よりも優れた結果を示しています。
统计
著者: Tianci Liu, Haoyu Wang, Feijie Wu, Hengtong Zhang, Pan Li, Lu Su, Jing Gao
所属: Purdue University, Tencent AI Lab, Georgia Institute of Technology
投稿先: ICLR 2024
データセット: Adult (Kohavi, 1996), German (Dua & Graff, 2017)
引用
"我々はFRL方法への初のデータ毒性攻撃を開発しました。"
"この攻撃は効果的であり、既存の手法よりも優れた結果を示しています。"