大規模言語モデル(LLM)の安全な開発を目指し、Distributional Dispreference Optimization(D2O)を提案。この手法は、人間が注釈付けした負のサンプルだけを使用してアラインメントを達成し、有害性を減らしつつ有益性を維持することに成功。D2Oは、高いトレーニング安定性と迅速な収束性で最新の強力なベースラインを上回り、有害性削減に優れた効果を示す。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Shitong Duan... في arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03419.pdfاستفسارات أعمق