本論文では、大規模言語モデルの出力に対する信頼性の高い確信度スコアを得るために、「マルチキャリブレーション」の手法を提案する。マルチキャリブレーションは、単一の条件付き期待値だけでなく、様々な交差した条件付き期待値を同時に調整することで、より精緻な確信度スコアを生成する。
大規模言語モデルの内部状態遷移ダイナミクスを分析することで、効果的に幻覚を検出・予測できる。
大規模言語モデルにおける選択タスクでは、プライマシー効果などの認知バイアスが顕著に現れ、モデルの性能に悪影響を及ぼす。本研究では、これらのバイアスを定量的に分析し、認知負荷の軽減によってバイアスを低減する手法を提案する。
大規模言語モデルの性能は、トレーニングデータの汚染によって歪められる可能性がある。本論文では、データ汚染とモデル汚染の両方の検出手法を包括的に調査し、オープンソースのLLMSanitizeライブラリを提供する。