本論文は、大規模言語モデル(LLM)のアラインメントにおける新しいアプローチであるCGPO(Constrained Generative Policy Optimization)を提案している。
LLMのアラインメントにおいては、報酬モデルの限界と、タスク間の目的の矛盾が課題となっている。
CGPOでは以下の2つの主要な取り組みを行う:
実験では、一般会話、命令理解、数学/コーディング推論、エンゲージメント、有害意図の5つのタスクで、提案手法が既存手法を大幅に上回る性能を示した。特に、報酬ハッキングの問題に強く、コーディング課題での性能劣化を回避できることが確認された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Tengyu Xu, E... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20370.pdfDomande più approfondite