本論文は、大規模言語モデル(LLM)の属性付きテキスト生成の課題に取り組んでいる。LLMは自然言語処理分野で広く採用されているが、信頼できない内容を生成するという課題に直面している。最近の研究では、引用(citation)を用いて根拠を提示することで、この課題に取り組んでいる。
しかし、現在の引用手法は主に検索段階と自動評価に焦点を当てており、人間の学術論文における引用メカニズムを反映していない。本論文では、この課題に取り組むため、属性付与タスクを選好学習として定式化し、自動選好最適化(APO)フレームワークを提案する。
まず、既存のデータセットから6,330の事例を収集・フィルタリングし、ポストトレーニング用のデータセットを構築する。次に、選好データラベリングの高コストを考慮し、自動的に95,263のペアを合成する手法を提案する。さらに、人間の引用プロセスに着想を得て、段階的な選好最適化手法を提案する。
3つのデータセット(ASQA、StrategyQA、ELI5)での実験の結果、APOが引用F1スコアの向上と回答品質の向上を達成することを示している。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Dongfang Li,... alle arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18381.pdfDomande più approfondite