本論文は、大規模言語モデル(LLM)の推論時の遅延問題に取り組んでいる。LLMは多くのパラメータを持つため、自己回帰的なデコーディング手法では推論が遅くなる問題がある。
提案手法の「隠れ層転送」は、中間層の隠れ状態を予測することで、複数の次の単語を同時に生成できるようにする。具体的には以下の手順を踏む:
実験の結果、提案手法は既存手法と比べて単一モデルでの高速化性能が優れていることが示された。また、中間層の隠れ状態の予測精度が高く、かつ予測された隠れ状態が後続の変換層で精緻化されていくことを分析実験で確認した。
To Another Language
from source content
arxiv.org
Djupare frågor