大規模言語モデル(LLM)の出力と人間の好みを効率的に整合させるために、部分的な応答から次のトークンの報酬を予測する新しい報酬モデルである「自己回帰型報酬モデル」と、それを用いたテスト時アラインメント手法「GenARM」を提案する。