Konsep Inti
大規模言語モデル(LLM)の出力と人間の好みを効率的に整合させるために、部分的な応答から次のトークンの報酬を予測する新しい報酬モデルである「自己回帰型報酬モデル」と、それを用いたテスト時アラインメント手法「GenARM」を提案する。
Abstrak
GenARM: 自己回帰型報酬モデルを用いた報酬に基づく生成:テスト時アラインメントのための
Xu, Y., Sehwag, U. M., Koppel, A., Zhu, S., An, B., Huang, F., & Ganesh, S. (2024). GENARM: REWARD GUIDED GENERATION WITH AUTOREGRESSIVE REWARD MODEL FOR TEST-TIME ALIGNMENT. arXiv preprint arXiv:2410.08193v1.
本論文は、大規模言語モデル (LLM) の出力と人間の好みを、テスト時、つまりLLMの再トレーニングなしに、効率的に整合させることを目的とする。