最近の会話型大規模言語モデル(LLM)の進歩において、多くの新しい基本LLMが監督されたファインチューニング(SFT)に続く知識の低下を経験していることが明らかになっています。このプロセスは、忘却や基本モデルの能力の低下などの問題を引き起こすことがよくあります。さらに、ファインチューニングされたモデルは、特定のプロンプトを受け取った際に有毒な出力を生成する傾向があります。これらの課題に対処するため、我々はSFTを完全にバイパスし、人間からのフィードバックから無害な強化学習(RLHF)を直接実装する革新的アプローチを採用しました。この方法論は、基本モデルの一般的な機能を保持し、会話能力を大幅に向上させるだけでなく、有害な出力を著しく減少させます。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chen Zheng,K... at arxiv.org 03-06-2024
https://arxiv.org/pdf/2403.02513.pdfDeeper Inquiries