Conceptos Básicos
微調整中に使用されるプロンプトテンプレートが安全なLLMの整合性を保つ上で重要であることを示す。
Resumen
LLM(Large Language Models)の微調整における安全性と効果的な方法に関する実証的研究を提供し、現在の実践へのシンプルかつ強力な修正案である「PTST原則」を提案しています。PTSTを適用しない場合、すなわち同じプロンプトテンプレートでトレーニングと推論を行うと、大きな安全性の低下が発生します。さらに、安全訓練例が存在する場合でも、PTST戦略は安全性低下を軽減します。
Estadísticas
GSM8KデータセットでLlama-2-7B-chatモデルを6エポックでファインチューニングしました。
chat:vanilla、chat:alpaca、chat:llamaテンプレートそれぞれでモデルをトレーニングしました。
安全データを追加してGSM8Kと一緒にモデルをトレーニングした結果も報告されています。
Citas
"Prompt engineering is a simple yet effective way to align LLMs with human values."
"Fine-tuning aligned LLMs on a small amount of harmful data can easily bypass the safety guardrails."
"Our proposed method aims to significantly reduce the likelihood of such risks, contributing to the safety and ethical standards within this field."