本研究では、長文脈LLMの性能を向上させるためのデータ組織化と管理の課題に取り組んでいる。具体的には以下の3つの主要な課題を明らかにした:
これらの課題に対処するため、DataSculptと呼ばれる新しいデータ管理フレームワークを提案している。DataSculptでは、データ組織化を多目的最適化問題として定式化し、関連性、均一性、完全性、効率性の4つの目的関数を最適化している。具体的には、粗い粒度での言語的クラスタリングに続いて、各クラスタ内で多目的グリーディ探索を行い、文脈ウィンドウへの文書の割り当てを最適化している。
実験の結果、DataSculptを用いることで、検索補助では18.09%、要約では21.23%、読解力では21.27%、コード補完では3.81%の性能向上が得られ、全体的なモデル性能も4.88%向上した。これらの結果は、DataSculptが長文脈利用の向上と他のタスクでの性能維持を両立できることを示している。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Keer Lu, Xia... : arxiv.org 10-03-2024
https://arxiv.org/pdf/2409.00997.pdfDaha Derin Sorular