In dieser Arbeit befassen wir uns mit dem Problem der fairness-bewussten Max-Min-Diversifizierung, bei dem das Ziel darin besteht, eine diverse Teilmenge von repräsentativen Datenpunkten auszuwählen, die eine Gruppenfairness-Bedingung erfüllen.
Wir präsentieren den MFD-Algorithmus, den ersten Algorithmus mit konstanter Approximation, der in quasi-linearer Zeit läuft und nur linearen Speicherplatz benötigt, um das Fair-Div-Problem zu lösen. Im Gegensatz dazu benötigen alle bisher bekannten Algorithmen mit konstanter Approximation super-lineare Zeit (in Bezug auf 𝑛oder 𝑘) und super-linearen Speicherplatz.
Unser Ansatz erreicht diese Effizienz, indem er eine neuartige Kombination der Multiplikativen-Gewichts-Update-Methode und fortgeschrittener geometrischer Datenstrukturen verwendet, um ein lineares Programm implizit und näherungsweise zu lösen. Darüber hinaus verbessern wir die Effizienz unserer Techniken durch die Konstruktion eines Coresets.
Wir schlagen auch den ersten effizienten Streaming-Algorithmus für das Fair-Div-Problem vor, dessen Effizienz nicht von der Verteilung der Datenpunkte abhängt. Die empirische Auswertung an Datensätzen in Millionengröße zeigt, dass unser Algorithmus innerhalb einer Minute die beste Diversität erreicht. Alle bisherigen Techniken sind entweder sehr ineffizient oder erzeugen keine gute Lösung.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yash Kurkure... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04713.pdfDeeper Inquiries