Core Concepts
この論文では、CNNおよびLLMの重みデータを効率的に圧縮・処理するための柔軟な数値データ型フレームワークを提案する。これにより、メモリ使用量と帯域幅の大幅な削減が可能となる。
Abstract
この論文では以下のことが示されている:
Llama2 7Bの重みデータの分布が圧縮に適していることを示し、簡単な無損失圧縮アルゴリズムを提案している。これにより、重みデータサイズを約34%削減できる。
提案するコーディングペアフォーマットを使うことで、浮動小数点数、posit、整数など、様々な可変精度・可変範囲の圧縮数値データ型を定義できる。これにより、アプリケーションに最適な数値表現を選択できる。
コーディングペアのエントロピー符号化にASNを使った簡単で高速なハードウェア実装を示している。これにより、800MHz超の処理速度と小さなリソース使用量を実現できる。
コーディングペアをCNNやLLMプロセッサのインターフェースに統合する方法を示している。これにより、圧縮された数値データを効率的に入出力できる。
同一モデルの複数インスタンスを並列に処理する「トークンファクトリ」の例を示し、圧縮された重みデータの共有によりメモリ帯域幅を大幅に削減できることを示している。
全体として、提案手法により、CNNやLLMの処理を大幅に効率化できることが示されている。
Stats
Llama2 7Bの重みデータを無損失圧縮すると、元のサイズの約81.25%まで圧縮できる。
理想的な符号化では、重みデータを平均10.58ビットで表現できる。
提案手法のANS符号化では、重みデータを平均10.58ビットから10.69ビットで表現できる。
Quotes
"この論文は、複数の数値データ形式の存在と、特に電力を大量に消費し遅いDRAMの帯域幅要件を削減する必要性の2つの問題に取り組もうとしている。"
"LLMsには膨大な数の重みがあるため、推論時の重み圧縮は特に有益である。"
"計算はメモリ帯域幅よりも安価なため、ソフトウェア実装も可能である。"