最近の研究では、フェアな機械学習方法に対する脆弱性が明らかになってきています。この研究は、深層ニューラルネットワークによるフェア表現学習(FRL)を攻撃する初のデータ毒性フレームワークを提案しています。この攻撃は、訓練データに注意深く作成された毒性サンプルを注入することで、不公平な表現を出力させることを目的としています。具体的には、相互情報量(MI)を最大化することで攻撃目標を達成しようとします。この攻撃は効果的であり、既存の手法よりも優れた結果を示しています。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Tianci Liu,H... a las arxiv.org 03-06-2024
https://arxiv.org/pdf/2309.16487.pdfConsultas más profundas