最近の研究では、フェアな機械学習方法に対する脆弱性が明らかになってきています。この研究は、深層ニューラルネットワークによるフェア表現学習(FRL)を攻撃する初のデータ毒性フレームワークを提案しています。この攻撃は、訓練データに注意深く作成された毒性サンプルを注入することで、不公平な表現を出力させることを目的としています。具体的には、相互情報量(MI)を最大化することで攻撃目標を達成しようとします。この攻撃は効果的であり、既存の手法よりも優れた結果を示しています。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Tianci Liu,H... klokken arxiv.org 03-06-2024
https://arxiv.org/pdf/2309.16487.pdfDypere Spørsmål