Centrala begrepp
FP8フォーマットを用いた量子化手法は、INT8に比べて高精度な推論を可能にし、幅広い演算をサポートする。特に、E4M3はNLPモデルに適しており、E3M4はコンピュータビジョンタスクでわずかに優れている。
Sammanfattning
本論文は、深層学習モデルの効率的な推論のためのポスト・トレーニング量子化手法について研究している。
75種類以上のユニークなネットワークアーキテクチャを対象に、200以上のタスクにわたって評価を行った。
FP8フォーマット(E5M2、E4M3、E3M4)を用いた量子化手法を検討し、INT8に比べて以下の点で優れていることを示した:
ワークロードカバレッジが高い(92.64% vs 65.87%)
モデル精度が高い
より幅広い演算(LayerNorm、BatchNorm)をサポートできる
E4M3はNLPモデルに適しており(カバレッジ96.32%)、E3M4はコンピュータビジョンタスクでわずかに優れている(カバレッジ78.95%)
標準的な量子化スキームと拡張された量子化スキームを組み合わせることで、幅広いネットワークアーキテクチャに適用可能な一般化された量子化ワークフローを提案した。
Statistik
FP8フォーマットは、INT8に比べて大きな動的範囲を持つため、アウトライヤーの影響を受けにくい。
E4M3とE3M4のFP8フォーマットは、INT8に比べて全体的な量子化誤差(MSE)が小さい。
Citat
"FP8フォーマットは、INT8に比べて高精度な推論を可能にし、幅広い演算をサポートする。"
"E4M3はNLPモデルに適しており、E3M4はコンピュータビジョンタスクでわずかに優れている。"