本論文は、大規模言語モデル(LLM)のアラインメントにおける新しいアプローチであるCGPO(Constrained Generative Policy Optimization)を提案している。
LLMのアラインメントにおいては、報酬モデルの限界と、タスク間の目的の矛盾が課題となっている。
CGPOでは以下の2つの主要な取り組みを行う:
実験では、一般会話、命令理解、数学/コーディング推論、エンゲージメント、有害意図の5つのタスクで、提案手法が既存手法を大幅に上回る性能を示した。特に、報酬ハッキングの問題に強く、コーディング課題での性能劣化を回避できることが確認された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tengyu Xu, E... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20370.pdfYêu cầu sâu hơn