TEAL, a training-free method for inducing activation sparsity in large language models, achieves significant inference speed-ups with minimal performance degradation by leveraging the inherent distributional properties of activations and specialized sparse kernels.
大規模言語モデル(LLM)において、学習なしで活性化スパース化を実現する手法「TEAL」は、モデル全体の40~50%のスパース化を達成し、デコーディング速度を最大1.8倍高速化できる。