核心概念
Directly implementing Harmless Reinforcement Learning from Human Feedback (RLHF) preserves base model capabilities, enhances conversational abilities, and reduces toxic outputs.
摘要
最近の会話型大規模言語モデル(LLM)の進歩において、多くの新しい基本LLMが監督されたファインチューニング(SFT)に続く知識の低下を経験していることが明らかになっています。このプロセスは、忘却や基本モデルの能力の低下などの問題を引き起こすことがよくあります。さらに、ファインチューニングされたモデルは、特定のプロンプトを受け取った際に有毒な出力を生成する傾向があります。これらの課題に対処するため、我々はSFTを完全にバイパスし、人間からのフィードバックから無害な強化学習(RLHF)を直接実装する革新的アプローチを採用しました。この方法論は、基本モデルの一般的な機能を保持し、会話能力を大幅に向上させるだけでなく、有害な出力を著しく減少させます。
统计
11 general tasks across various categories were evaluated.
Mistral-Plus outperformed similarly sized open-source base models in all tasks.
Mistral-Plus showed significant improvements in conversational abilities.
引用
"Our method not only preserves the base model’s general capabilities but also significantly enhances its conversational abilities."
"Our approach holds significant implications for fields that demand a nuanced understanding and generation of responses."