Główne pojęcia
RLHFを使用してPretrained Large Language Models(LLMs)を人間の好みに合わせる方法を改善し、計算リソースの負担を軽減するために、LoRAを使用した「Parameter Efficient Reinforcement Learning」(PERL)が有効であることを示す。
Statystyki
Huら[2021]によって導入されたLow-Rank Adaptation(LoRA)方法により、報酬モデルトレーニングおよび強化学習が実施されました。
Cytaty
"PERLは従来のRLHF設定と同等の結果を達成し、トレーニング時間が短く、メモリ使用量も少ない。"
"LoRAアダプターのランクが増加すると累積報酬も向上する。"