Die Studie untersucht die Fairness von großen Sprachmodellen (LLMs) wie GPT-3.5 bei der Klassifizierung von Tabellendaten. Die Ergebnisse zeigen, dass LLMs in einem Zero-Shot-Szenario erhebliche Fairness-Lücken zwischen geschützten und nicht geschützten Gruppen aufweisen, die deutlich größer sind als bei traditionellen Modellen wie Random Forests und flachen neuronalen Netzen.
Durch Experimente mit In-Context-Learning und Finetuning konnte zwar eine teilweise Verbesserung der Fairness erzielt werden, die Fairness-Lücken blieben jedoch größer als bei den traditionellen Modellen. Dies deutet darauf hin, dass die sozialen Vorurteile in den LLMs selbst verankert sind und nicht nur von den Datensätzen für die Downstream-Aufgaben herrühren.
Darüber hinaus zeigt die Studie, dass das Umkehren der Etiketten der In-Context-Beispiele die Fairness-Lücken deutlich verringern kann, was die Präsenz inhärenter Vorurteile in den LLMs weiter unterstreicht. Schließlich erweisen sich gängige Techniken wie Daten-Resampling als weniger effektiv bei der Verbesserung der Fairness von LLMs im Vergleich zu traditionellen Modellen.
Insgesamt verdeutlichen die Ergebnisse, dass die Verwendung von LLMs für Tabellen-Klassifizierungen erhebliche Fairness-Risiken bergen kann, die sorgfältig adressiert werden müssen, insbesondere angesichts der weitverbreiteten Nutzung von Tabellendaten in sicherheitskritischen Anwendungen.
翻譯成其他語言
從原文內容
arxiv.org
深入探究