Keskeiset käsitteet
事前学習時に単語レベルで詳細な推論プロセスを注入する「単語の思考」(TOW)は、大規模言語モデルの推論能力と事実想起能力を向上させる効果的な手法である。
Tiivistelmä
単語の思考 (TOW): 大規模言語モデルにおける推論を向上
本稿は、大規模言語モデルの推論能力を向上させるための新しい事前学習時データ拡張手法である「単語の思考」(TOW)を提案する研究論文である。
本研究は、大規模言語モデルが抱える、事実と推論における誤りがちな出力の問題に取り組むことを目的とする。具体的には、モデルが事実に反する内容を生成したり、文脈的に不適切な単語を生成したりする問題を、事前学習時に単語レベルでの推論プロセスを明示的に学習させることで解決することを目指す。
TOWは、事前学習データ中の各単語に対して、その単語が前の文脈とどのように関連しているかを説明する詳細な「思考」を注釈として付与する。本研究では、大規模言語モデル(GPT-4o)を用いて、約7万語のTOW注釈を生成し、このデータでベース言語モデル(Mistral-7B、LLaMA2-7B、LLaMA3-8B)を継続的に事前学習させた。
TOW注釈は、単語を4つのカテゴリに分類し、それぞれに説明を付与する。
自明な単語 (trivial):stop words など、文脈に影響を与えない単語。
正確に予測可能な単語 (exact match):前の文脈から一義的に決定される単語。
おおよそ予測可能な単語 (soft consistent):前の文脈からある程度予測可能な単語。
予測不可能な単語 (unpredictable):前の文脈からは予測できない単語。