大規模な未ラベルのNLPデータセットにおける文章の品質を数値的に評価する新しい手法を提案し、この品質スコアを利用してデータセットをプルーニングすることで、言語モデルの学習効率を大幅に改善できることを示した。