単なる模倣学習ではなく、良い応答と悪い応答の対比から得られる細粒度の品質シグナルを活用することで、大規模言語モデルの人間嗜好への整合性を向上させる。
弱モデルと中程度のモデルの重みを外挿することで、より強力な人間嗜好整合モデルを簡単に得ることができる。