Concepts de base
大規模な言語モデル(LLMs)を人間の好みと一致させるために、より多くの応答を拡張することが、プロンプトを増やすよりも効果的である。
Résumé
大規模な言語モデル(LLMs)は、人間の価値観と一致するように微調整されている。
プロンプトの多様性を定量化する新しい公式が提案された。
データ拡張によってデータ多様性が向上し、微調整されたLLMsのパフォーマンスもわずかに向上した。
導入
LLMsは多くのドメインで優れた能力を示しているが、有害なコンテンツを生成するリスクがある。
限られた人間アノテーションリソースでは、プロンプトまたは応答をどちらに重点を置くか決定する必要がある。
定量的実験
異なるサブセットでLLMsを微調整し、パフォーマンス結果を比較した。
応答数を増やすことがプロンプト数を増やすよりもパフォーマンス向上に寄与することが示された。
データ拡張結果
新しいサンプルを追加してデータ多様性を高め、微小なパフォーマンス向上が見られた。
Stats
数値実験から得られた結果:「Expanding responses yields more benefit than prompts.」
数値実験から得られた結果:「The empirical formulation of prompt diversity can establish a linear correlation with the final performance of LLMs.」