核心概念
DynaMoは、動的にマルチトークンを予測することで、大規模言語モデルの推論時間を大幅に短縮する。
摘要
本研究では、DynaMoと呼ばれる動的マルチトークン予測言語モデルのスイートを提案している。従来の自己回帰型の言語モデルは1トークンずつ予測するため、大規模モデルの推論時間が非常に長くなる問題がある。DynaMoは、文脈に応じて複数のトークンを動的に予測することで、推論時間を大幅に短縮する。
具体的には以下の手法を提案している:
- 従来モデルの重みを転移学習することで効率的に訓練する
- 予測トークンの共起確率を考慮したマスキングと適応的しきい値処理により、生成テキストの品質を向上させる
- 単一トークン予測精度、マルチトークン perplexity、オープンエンド生成など、多角的な評価を行う
実験の結果、DynaMo-7.3B-T3モデルは、ベースラインモデル(Pythia-6.9B)と同等の生成テキスト品質を維持しつつ、2.57倍の高速化を達成した。パラメータ数と訓練時間のオーバーヘッドはそれぞれ5.87%と2.67%と小さい。
统计
大規模言語モデルの推論時間は非常に長く、エッジデバイスでの実用化が困難
従来の自己回帰型モデルは1トークンずつ予測するため、推論時間が長い
DynaMoは動的にマルチトークンを予測することで、2.57倍の高速化を実現
引用
"Recent research has demonstrated the tremendous promise of large language models (LLMs) as competent artificial intelligence (AI) assistants (Touvron et al., 2023b)."
"Research in psycholinguistics shows that humans do not necessarily think of words one at a time when articulating thought (Sridhar, 2012); instead they employ a parallel network of cognitive and linguistic processes."