本論文は、大規模言語モデル(LLM)が限られたデータから複雑な推論タスクを解くことができる理由を説明するものである。
まず、LLMの生成プロセスにはテンプレートとコンテンツの2つの部分が存在することを示す。テンプレートは特定のタスクに共通する固定的な構造であり、コンテンツはタスクごとに変化する柔軟な部分である。この構造により、LLMは指数的に増大する可能性空間を線形レベルに抑えることができ、限られたデータから効率的に学習できるようになる。
さらに、このテンプレート-コンテンツ構造を階層的に拡張することで、LLMが複数のサブタスクを組み合わせて解くことができる「タスク合成」能力を説明する。これにより、LLMが複雑な推論タスクを学習する際の必要空間がさらに削減される。
実験では、現在のLLMがテンプレート-コンテンツ構造を学習していることを示し、この構造を明示的に教えることで推論性能が向上することを確認した。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Haotong Yang... às arxiv.org 04-08-2024
https://arxiv.org/pdf/2310.05452.pdfPerguntas Mais Profundas