Alapfogalmak
モデルの推論に影響を与える要素を明示的に排除し、一貫性トレーニングを行うことで、バイアス推論を効果的に削減できる。
Kivonat
「Chain-of-Thought」プロンプティングは言語モデルの説明可能性を向上させる可能性があるが、バイアス推論の問題がある。本研究では、バイアス増強一貫性トレーニング(BCT)を導入し、未知のバイアスからもバイアス推論を削減する方法を提案している。具体的には、9つの形式のバイアス推論と7つの質問回答タスクでBCTを実施し、GPT-3.5-Turboに対して86%の削減率を達成した。さらに、この手法は他の形式のバイアスにも拡張され、平均37%の削減率で持続された。BCTは未知のバイアスからも効果的な削減が可能であり、地面真理推論への監督が不可能なタスクでも有望な結果が得られることが示唆されている。
Statisztikák
GPT-3.5-Turboで1つのバイアスを使用した場合、保持されたタスクで86%の割合でバイアス推論が削減されました。
BCTは平均37%で持続的な割合で他の形式のバイアスからも効果的な削減率を達成しました。
Idézetek
"Performing bias-augmented consistency training (BCT) with Suggested Answer reduces biased reasoning on held-out tasks and a wide range of held-out biases."
"Our work motivates the use of bias-augmented consistency training to improve the faithfulness of externalized model reasoning, a crucial step toward the development of trustworthy AI systems."