核心概念
Large language models exhibit Toxic CoT problems due to information loss from questions, mitigated by RIDERS method.
摘要
大規模言語モデルは、CoT問題により毒性のある問題を抱えており、質問からの情報損失が原因であり、RIDERS方法によって緩和されています。この研究では、LLMの内部情報フローを追跡し、毒性CoT問題のメカニズムを明らかにしました。RIDERS(Residual decodIng and sERial-position Swap)という新しい手法を提案し、多くの共通感覚推論データセットでその効果を検証しました。
統計資料
23.6%減少した毒性CoT問題
5.5%増加した全体的な共通感覚推論パフォーマンス
引述
"Large language models exhibit high-level commonsense reasoning abilities, especially with enhancement methods like Chain-of-Thought (CoT)."
"Through comparisons, we prove that the model exhibits information loss from the question in the shallow attention layers when generating rationales or answers."
"Our method effectively mitigates Toxic CoT problems, reducing the Toxic Rate by an average of 23.6% across five datasets."