本論文では、GPT-4の性能を複数の決定論的タスクで測定した結果を報告している。各タスクは基本的な計算を行い、大規模な定義済みの入力集合から要素を取り入れる。
様々な条件でタスクを実行し、統計的に有意な差異を検出できるだけの試行を行った。これにより、タスクの正確性が、クエリの表現方法や入力パラメータの集合にどの程度敏感であるかを調べることができる。
わずかな変更でも、サンプリングの影響では説明できないほど大きな差が生じることがわかった。例えば、リストの要素を数える単純なタスクでも、クエリの表現方法やリストの長さだけでなく、数えるものの種類や出現頻度によって成績が大きく変わる。
これらの結果から、大規模言語モデルの能力を定量化しようとすると、言語を固定効果と扱う誤謬に陥りやすいことがわかる。観察された性能を一般化することは困難であり、特定の実験設定にのみ当てはまる可能性がある。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询