Core Concepts
OpenLLaMA 3Bv2をベースモデルとして、合成教示データを使用した効率的な教師あり微調整により、パラメータ数が小さくコストが低い高性能モデルを開発した。
Abstract
本研究では、OpenLLaMA 3Bv2をベースモデルとして、以下の手順で教示データを生成し、効率的な教師あり微調整を行うことで、パラメータ数が小さく費用対効果の高い高性能モデルを開発した。
LaMini、Evol-Instruct、Orcaの3つのスキームを使用して、オープンソースの教示モデルを用いて合成教示データを生成した。
GPT-4を人間のプロキシとして使用して、生成された教示データをフィルタリングした。
各スキームで順次QLoRAベースの教師あり微調整を行った。
HH-RLHFデータセットの一部を使用して分布シフトを最小化するための追加の微調整を行った。
DPOロスを使用して最終的なチェックポイントを得た。
評価の結果、最終的なOpenBezoar-HH-RLHF-DPOモデルは、3Bパラメータスケールの多くのモデルを上回る性能を示し、Hugging Face Open LLMリーダーボードの1位モデルを1つのカテゴリで上回った。
Stats
OpenBezoar-SFTは、ベースモデルと比較して、TruthfulQA(14.18%精度向上)、OpenBookQA(8.84%)、MMLU(4.29%)で大幅な改善を示した。
OpenBezoar-HH-RLHF-DPOは、OpenBezoar-SFTと比較して、平均で2.36%の改善を示した。
Quotes
"OpenBezoar-HH-RLHF-DPOモデルは、3Bパラメータスケールの多くのモデルを上回る性能を示し、Hugging Face Open LLMリーダーボードの1位モデルを1つのカテゴリで上回った。"
"最終的なOpenBezoar-HH-RLHF-DPOモデルは、平均で2.36%の改善を示した。"