この論文では、言語モデルの最適な学習に関する理論を確立しています。圧縮率を最大化する目的を提案し、「Learning Law」と呼ばれる定理がすべての例がLMに同じ貢献度を持つべきであることを示しています。実験では、PerceptronおよびTransformerで検証され、近接ポリシーはスケーリング法則係数を本質的に改善しました。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuxian Gu,Li... lúc arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.17759.pdfYêu cầu sâu hơn