言語モデルは誤った応答を生成することがあるため、入力に対する不確実性を正しく定量化することが重要である。従来の評価手法には課題があるため、ランク較正に基づく新しい評価フレームワークを提案する。
言語モデルは抽象的な推論能力を持っているのか、それとも特定の課題条件に依存した非汎化的な振る舞いをしているのか。