核心概念
言語モデルの文脈学習では、性能と校正のバランスが重要である。低shot設定では、モデルが過度に自信を持つ傾向があり、説明生成などの機能を追加すると校正が悪化する。
要約
本研究は、言語モデルの文脈学習における性能と校正のトレードオフを包括的に評価・分析したものである。主な知見は以下の通り:
- 基本的な言語モデルは、十分な文脈学習サンプルがある場合、校正が良好になる。
- 文脈学習サンプルを増やすと、初めは性能と校正のバランスが悪化するが、サンプル数が増えるにつれ改善される。特に低shot設定(k < 4)では、モデルが過度に自信を持つ傾向がある。
- 使いやすさを向上させる fine-tuning や chain-of-thought プロンプティングなどの手法は、校正を悪化させる可能性がある。生成された説明は性能を向上させるが、信頼性が低い可能性がある。
- スケーリング-ビニング校正器を用いることで、期待校正誤差を0.1以下に抑えられることを示した。
- 大規模モデルほど自信の高い誤った予測を生成する傾向がある。
統計
文脈学習サンプルを増やすと、予測の正解率と校正誤差が共に上昇する。
大規模モデルほど自信の高い誤った予測を生成する傾向がある。
引用
"言語モデルの文脈学習では、性能と校正のバランスが重要である。"
"低shot設定では、モデルが過度に自信を持つ傾向がある。"
"説明生成などの機能を追加すると校正が悪化する可能性がある。"