Das Papier stellt ein neues Framework namens ERD (Extraction-Reasoning-Debate) vor, das die Leistung von Large Language Models (LLMs) bei der Erkennung und Klassifizierung kognitiver Verzerrungen in Nutzeraussagen verbessert.
Der erste Schritt, die Extraktion, identifiziert und extrahiert Textteile aus den Nutzeraussagen, die möglicherweise kognitive Verzerrungen enthalten. Im zweiten Schritt, dem Reasoning, verwendet ein LLM-basierter Ansatz wie DoT (Diagnosis-of-Thought) den extrahierten Text, um den Denkprozess zur Einschätzung der kognitiven Verzerrungen zu generieren.
Im dritten Schritt, der Debatte, diskutieren mehrere LLM-Agenten in der Rolle von "Ärzten" den im Reasoning-Schritt generierten Denkprozess, um die Präsenz und Art der kognitiven Verzerrung zu beurteilen. Ein dritter "Oberarzt"-Agent fasst die Debatte zusammen und wertet die Gültigkeit der Argumente aus, bevor er die endgültige Entscheidung trifft.
Die Experimente zeigen, dass ERD die Mehrklassen-F1-Punktzahl für die Aufgabe der Verzerrungsklassifizierung um mehr als 9% und die Spezifität der Verzerrungseinschätzung um mehr als 25% im Vergleich zu bestehenden Baselines verbessert. Die Analyse zeigt, dass mehrere Runden der Debatte sowie die Zusammenfassung und Gültigkeitsbewertung während der Debatte den Entscheidungsprozess verbessern und die Tendenz zur Überdiagnose von Verzerrungen reduzieren.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询