大規模言語モデル(LLMs)の優れた一般的知能からインスピレーションを受け、研究者たちは会話型、説明可能、制御可能な次世代の推奨システムへの応用を始めました。既存文献では、ドメイン固有の知識をLLMsに統合して精度を向上させることが主に行われていますが、指示に従う能力はしばしば無視されています。本研究では、監督学習タスクと強化学習ベースの整列手法を導入し、LLMsが推奨システム内で指示に従う能力を向上させる方法を提案しています。実験結果は、我々の手法がLLMsの指示に従う能力を著しく向上させることを示しました。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Wensheng Lu,... alle arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05063.pdfDomande più approfondite