Core Concepts
大規模データを活用して無限n-gramモデルを開発し、ニューラル言語モデルの性能を大幅に改善した。
Abstract
本論文では、n-gramモデルを大規模データで学習し、n値を無限大まで拡張した「無限n-gram」モデルを提案している。
5兆トークンの大規模データを使ってn-gramモデルを学習し、これまでの最大規模を大幅に上回った。
n値を無限大まで拡張することで、より長い文脈を捉えられるようになり、人間が書いた文章や機械生成文章の予測精度が大幅に向上した。
無限n-gramモデルの効率的な実装エンジン「infini-gram」を開発し、高速な推論を実現した。
無限n-gramモデルをニューラル言語モデルと組み合わせることで、ニューラル言語モデルの性能を大幅に改善できることを示した。最大73%のパープレキシティ低減を達成した。
人間が書いた文章や機械生成文章に対する無限n-gramモデルの予測精度を分析し、ニューラル言語モデルの課題点を明らかにした。
Stats
5兆トークンの大規模データを使って無限n-gramモデルを学習した
無限n-gramモデルの予測精度は47%であり、文脈が長くなるほど精度が向上する
無限n-gramモデルとニューラル言語モデルを組み合わせることで、ニューラル言語モデルのパープレキシティを最大73%低減できる
Quotes
「n-gramモデルは、ニューラル大規模言語モデルの時代においても依然として重要である」
「我々は、n-gramモデルを2つの側面で近代化した: 学習データの規模と、nの値」