トークン発散メトリクス(DTM)は、圧縮された生成モデルの性能差を適切に評価する新しいアプローチである。DTMは通常使用される貪欲サンプリング手順を尊重し、従来のパープレキシティベースの指標が抱える致命的な欠陥を回避する。DTMに基づく圧縮プロセスにより、Llama2-13Bの75%スパースバージョンを優れた性能で実現し、Llama2-7Bの80%のコンポーネントをint8に変換できることを示した。