核心概念
FutureFillと呼ばれる新しい手法により、畳み込みシーケンスモデルにおいて、従来の線形時間から平方根時間へと大幅に高速化されたオートレグレッシブ生成が可能になる。
本稿では、シーケンス予測モデル、特に畳み込み演算子に基づくモデルにおけるオートレグレッシブ生成の効率化について考察する。従来、これらのモデルはTransformerモデルに比べて学習が高速である一方、推論、特にトークン生成においては線形時間の計算コストがかかり、Transformerモデルと比較して不利であった。
本稿で提案するFutureFillは、畳み込みモデルにおけるトークン生成を高速化する手法である。FutureFillは、生成するトークン数にのみ依存するサイズのキャッシュを用いることで、コンテキスト長に対して線形時間から平方根時間へと計算量を削減する。
FutureFillの仕組み
FutureFillは、生成段階の前に事前計算を行うことで高速化を実現する。具体的には、コンテキスト長Lの入力シーケンスに対して、生成するトークン数K分のキャッシュを事前に計算しておく。このキャッシュには、各トークン生成時に必要となる、コンテキスト全体に対する依存関係の情報が格納されている。生成段階では、このキャッシュと最新の入力トークンを用いることで、高速に次のトークンを生成することができる。
FutureFillの利点
生成時間がコンテキスト長に対して平方根時間に削減される。
キャッシュサイズは生成するトークン数にのみ依存し、従来の畳み込みモデルやAttentionモデルよりも小さくて済む。
任意の畳み込みモデルに適用可能である。
実験結果
本稿では、人工データを用いた生成タスクにおいてFutureFillの有効性を検証した。その結果、FutureFillは従来手法と比較して、生成時間を大幅に短縮することを確認した。
結論
FutureFillは、畳み込みシーケンスモデルにおけるオートレグレッシブ生成を高速化する効果的な手法である。本稿で提案した手法は、畳み込みモデルの更なる発展と普及に貢献するものと期待される。
統計
トークン生成の計算量は、従来手法ではO(T)時間であった。
FutureFillを用いることで、トークン生成の計算量は、償却O(√T log T)時間に削減される。