大規模言語モデル(LLM)の安全な開発を目指し、Distributional Dispreference Optimization(D2O)を提案。この手法は、人間が注釈付けした負のサンプルだけを使用してアラインメントを達成し、有害性を減らしつつ有益性を維持することに成功。D2Oは、高いトレーニング安定性と迅速な収束性で最新の強力なベースラインを上回り、有害性削減に優れた効果を示す。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Shitong Duan... às arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03419.pdfPerguntas Mais Profundas