Die Studie untersucht einen Ansatz zur Verbesserung der Erklärbarkeit von Textklassifizierungsmodellen, indem menschliche Begründungen (Rationales) in den Lernprozess einbezogen werden.
Der Kern des Ansatzes ist eine neuartige kontrastive Verlustfunktion, die neben der üblichen Klassifikationsverlustfunktion verwendet wird. Diese kontrastive Verlustfunktion zielt darauf ab, die Modelle dazu zu bringen, ihre Entscheidungen stärker auf die menschlichen Begründungen zu stützen.
Um den Zielkonflikt zwischen Modellleistung und Erklärungsplausibilität zu untersuchen, wird ein Multi-Objektiv-Optimierungsverfahren eingesetzt. Dieses ermöglicht es, einen Pareto-optimalen Satz von Modellen zu finden, die unterschiedliche Kompromisse zwischen Leistung und Plausibilität repräsentieren.
Die Experimente zeigen, dass der Ansatz die Plausibilität der Erklärungen deutlich verbessern kann, ohne die Leistung der Modelle wesentlich zu beeinträchtigen. Dies wird für verschiedene Modelle, Datensätze und Erklärungsmethoden demonstriert. Der Ansatz erweist sich als robuster und modell-agnostischer Weg, um die Erklärbarkeit von Textklassifizierungsmodellen zu verbessern.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lucas E. Res... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03098.pdfYêu cầu sâu hơn