LLM(Large Language Models)の微調整における安全性と効果的な方法に関する実証的研究を提供し、現在の実践へのシンプルかつ強力な修正案である「PTST原則」を提案しています。PTSTを適用しない場合、すなわち同じプロンプトテンプレートでトレーニングと推論を行うと、大きな安全性の低下が発生します。さらに、安全訓練例が存在する場合でも、PTST戦略は安全性低下を軽減します。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Kaifeng Lyu,... alle arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18540.pdfDomande più approfondite