Centrala begrepp
SHEDは、Shapley値を利用して大規模データセットから高品質なデータサブセットを自動的に選別することで、大規模言語モデルのファインチューニングを効率化する。
Sammanfattning
本研究では、SHEDと呼ばれる新しいフレームワークを提案している。SHEDは、Shapley値を利用して大規模データセットから高品質なデータサブセットを自動的に選別することで、大規模言語モデルのファインチューニングを効率化することを目的としている。
SHEDの主な特徴は以下の通り:
- モデルに依存しないクラスタリングにより、データセットの代表サンプルを選定する。
- プロキシベースのShapley値計算手法を用いて、効率的にデータサンプルの重要度を評価する。
- 最適化を考慮したサンプリング手法により、高品質なデータサブセットを構築する。
実験の結果、SHEDで選別したデータセットを用いてLLaMA言語モデルをファインチューニングすると、元のデータセットを使った場合と同等以上の性能が得られることが示された。さらに、SHEDで選別したデータセットは他の言語モデルでも高い汎化性を示した。これにより、データ選別の計算コストを複数のモデルで共有できるというメリットが得られる。
Statistik
元のMMULデータセットの10%のデータを使ってもLLaMA-7Bモデルの性能は元のデータセットと同等以上に達成できる。
元のWizardLMデータセットの4%のデータを使ってもLLaMA-7Bモデルの性能は元のデータセットを上回る。
Citat
"最近の研究では、大規模言語モデルは少量の高品質データでも望ましい性能を達成できることが明らかになっている。これは、これらの大規模データセットの多くが冗長であるか、有害な可能性があることを示唆している。"
"大規模データセットから高品質なデータを特定し、小さながら効果的なデータセットを作成することが重要な課題となっている。"