Core Concepts
トークン発散メトリクス(DTM)は、圧縮された生成モデルの性能差を適切に評価する新しいアプローチである。DTMは通常使用される貪欲サンプリング手順を尊重し、従来のパープレキシティベースの指標が抱える致命的な欠陥を回避する。DTMに基づく圧縮プロセスにより、Llama2-13Bの75%スパースバージョンを優れた性能で実現し、Llama2-7Bの80%のコンポーネントをint8に変換できることを示した。
Abstract
本研究では、大規模言語モデル(LLM)の圧縮に向けた新しい評価指標であるトークン発散メトリクス(DTM)を提案している。
まず、従来のパープレキシティ(PPL)ベースの指標には、生成プロセスの不連続性を適切に捉えられないという問題があることを示した。そこで、DTMは以下の2つの指標を導入している:
- 第一発散トークン(FDT): 生成系列において、基準モデルと圧縮モデルの出力が最初に異なるトークンの位置を表す。
- 発散トークン割合(SDT): 生成系列において、基準モデルと圧縮モデルの出力が異なるトークンの割合を表す。
これらの指標は、実際の生成プロセスを反映しており、PPLよりも圧縮モデルの性能劣化を適切に捉えられることを示した。
さらに、FDTに基づく圧縮手法を提案し、Llama2-13Bモデルの75%をスパース化しつつ、単桁のパープレキシティを維持できることを実証した。また、Llama2-7Bモデルの80%のパラメータをint8量子化できることも示した。これらの結果は、従来の圧縮手法では得られない高い圧縮率を達成できることを意味している。
以上より、DTMは大規模言語モデルの圧縮プロセスを評価・最適化するための有効な指標であると結論付けられる。
Stats
圧縮後のLlama2-13Bモデルのパープレキシティは8.101、基準モデルの4.884と比べて劣化しているが、単桁の値を維持できている。
圧縮後のLlama2-7Bモデルのパープレキシティは5.489、基準モデルの5.472とほぼ変わらない。
Quotes
"トークン発散メトリクス(DTM)は、圧縮された生成モデルの性能差を適切に評価する新しいアプローチである。DTMは通常使用される貪欲サンプリング手順を尊重し、従来のパープレキシティベースの指標が抱える致命的な欠陥を回避する。"
"DTMに基づく圧縮プロセスにより、Llama2-13Bの75%スパースバージョンを優れた性能で実現し、Llama2-7Bの80%のコンポーネントをint8に変換できることを示した。"