本研究では、言語モデルの数値処理能力の向上を目的として、「NumeroLogic」と呼ばれる新しい数値表現方法を提案している。
従来の言語モデルは、数値を左から右に順に読み取るため、最初の桁の位取りを把握するのが難しい。NumeroLogicでは、数値の前に桁数を付加することで、モデルがあらかじめ数値の桁数を知ることができるようになる。さらに、数値生成時にも桁数を先に予測する必要があるため、推論プロセスが促進される。
実験では、小規模モデルのNanoGPTと大規模モデルのLlama2-7Bを用いて、算術タスクでの性能向上を確認した。加減乗除、三角関数、平方根などの様々な数値演算タスクで大幅な精度向上が見られた。
また、Llama2-7BのプリトレーニングにNumeroLogicを適用し、一般的な言語理解タスクであるMMULベンチマークでも性能向上が確認された。特に数値理解を必要とするタスクで大きな改善が見られた。
NumeroLogicは言語モデルの数値処理能力を向上させる簡単かつ効果的な手法であり、数値理解が重要な様々な応用分野で活用できると期待される。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Eli Schwartz... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00459.pdfPerguntas Mais Profundas