Główne pojęcia
GPT-4を使って合成した3.5Kの長文脈データを使って、Llama-3-8B-Instructの文脈長を8Kから80Kに効率的に拡張した。拡張されたモデルは長文脈タスクで優れた性能を示し、短文脈でも元のモデルと同等の能力を維持している。
Streszczenie
本論文では、Llama-3-8B-Instructの文脈長を8Kから80Kに拡張する効率的な手法を提案している。
具体的には以下の3つの長文脈タスクのデータを、GPT-4を使って合成した:
- 単一詳細QA: 長文脈の中の特定の詳細に関する質問に答える
- 複数詳細QA: 長文脈の複数の詳細を統合して答える質問
- 伝記要約: 長編書籍の主要登場人物の伝記を要約する
これらの合成データ3.5Kと、RedPajamaとLongAlpacaのデータを合わせた20Kのデータセットを使ってQLoRAによる効率的な fine-tuning を行った。
fine-tuning の結果得られたLlama-3-8B-Instruct-80K-QLoRAモデルは、Needle-In-A-Haystack、トピック検索、LongBench、InfBenchなどの長文脈タスクで優れた性能を示した。一方で、MMLU のゼロショット評価では短文脈能力が若干低下したものの、他の同規模モデルよりも高い性能を維持している。
全リソース(データ、モデル、データ生成パイプライン、トレーニングコード)を公開し、長文脈LLMの研究を促進する。
Statystyki
文脈長が64K~80Kの長文脈データを3.5K合成した
合成データに加えて、RedPajama 5K、LongAlpaca 12Kのデータを使って、合計20Kのデータセットを構築した
Cytaty
"我々は、Llama-3-8B-Instruct-80K-QLoRAを公開する。これはLlama-3-8B-Instructの文脈長を8Kから80Kに拡張したものである。モデル、トレーニングデータ、コードのすべてのリソースを公開し、長文脈LLMの研究を推進する。"
"我々の手法は単純かつ効率的であり、得られたモデルは長文脈タスクで顕著な性能を示している。さらなる研究を通じて、アプローチを改善することができる。"