핵심 개념
Proposing Distributional Dispreference Optimization (D2O) to achieve alignment using solely human-annotated negative samples, reducing harmfulness while maintaining helpfulness.
초록
大規模言語モデル(LLM)の安全な開発を目指し、Distributional Dispreference Optimization(D2O)を提案。この手法は、人間が注釈付けした負のサンプルだけを使用してアラインメントを達成し、有害性を減らしつつ有益性を維持することに成功。D2Oは、高いトレーニング安定性と迅速な収束性で最新の強力なベースラインを上回り、有害性削減に優れた効果を示す。
통계
Harmfulness reward between positive and negative samples in datasets is marginal.
D2O surpasses DPO-Full in both harmfulness and helpfulness.
Harmlessness reward distributions of training data show slight difference between positive and negative samples.