報酬マージンを報酬モデルの訓練プロセスに組み込むことで、人間の嗜好をより正確に捉えることができる。
人間は、LLMが生成した誤情報の程度に応じて、その内容の正確性を判断し、それに応じた行動をとる。また、警告の提示によって、人間は誤情報を検出できるようになる。