Özet
本研究は、大規模言語モデル(LLM)の圧縮効率と知能の関係を実証的に調査したものである。
まず、知識・常識、コーディング、数学的推論の3つの能力領域を設定し、それぞれに関連する12のベンチマークタスクを収集した。次に、30種類の公開LLMを対象に、これらのベンチマークスコアと、外部テキストコーパスを圧縮する際の圧縮効率(bits per character: BPC)の関係を分析した。
その結果、LLMの平均ベンチマークスコアとBPCの間には、ほぼ完璧な線形相関(相関係数-0.94)が見られることが明らかになった。この傾向は、個別のベンチマークタスクでも同様に観察された。
これらの結果は、圧縮効率が知能を線形的に表す指標となることを示唆している。また、圧縮効率は、ベンチマークスコアよりも安定した評価指標となる可能性がある。なぜなら、圧縮コーパスを適切に選択・更新することで、データリークやベンチマークの過剰適合を回避できるからである。
今後の課題として、長文脈での知能評価や、ファインチューニング済みモデルの圧縮効率と知能の関係などが挙げられる。
İstatistikler
言語モデルの平均ベンチマークスコアは、圧縮効率(BPC)とほぼ完璧な線形相関(相関係数-0.94)を示す。
個別のベンチマークタスクのスコアも、BPCと強い線形相関(相関係数-0.87~-0.95)を持つ。
圧縮コーパスの文字数が3000万以上あれば、BPCの評価は安定する。
Alıntılar
"言語モデルの圧縮効率は、その知能を線形的に表す。"
"圧縮効率は、ベンチマークスコアよりも安定した評価指標となる可能性がある。"