RLHFを使用してPretrained Large Language Models(LLMs)を人間の好みに合わせる方法を改善し、計算リソースの負担を軽減するために、LoRAを使用した「Parameter Efficient Reinforcement Learning」(PERL)が有効であることを示す。