核心概念
LLMの応答におけるエラーを検出するための新しいベンチマーク「ReaLMistake」を開発した。このベンチマークは、LLMによって生成された応答に含まれる客観的で現実的で多様なエラーを収集することを目的としている。
摘要
本研究では、LLMの応答におけるエラーを検出するための新しいベンチマーク「ReaLMistake」を開発した。従来のベンチマークでは、主観的な評価基準や限定的なエラーの種類しか扱っていなかったが、ReaLMistakeは以下の4つの客観的な評価基準に基づいて設計されている:
- 推論の正確性: LLMの応答における論理的な妥当性
- 指示の遵守: 入力で指定された要件への準拠
- コンテキストの忠実性: 与えられたコンテキストに対する忠実性
- パラメータ化された知識: 事実的な正確性
ReaLMistakeには3つのタスクが含まれており、これらのタスクはLLMに多様なエラーを引き起こすように設計されている。これらのタスクは、数学の単語問題の生成、細粒度な事実検証、回答可能性の分類である。
本研究では、12種類のLLMを用いてReaLMistakeのベンチマークを評価した。その結果、以下のことが明らかになった:
- 最新のLLMでも、LLMの応答におけるエラーを高い再現率で検出することは困難である。
- LLMベースのエラー検出器によって生成された説明は信頼性が低い。
- エラー検出の性能はプロンプトの設計に敏感であるが、簡単に改善することはできない。
- LLMの改善手法であるself-consistency、多数決、評価ステップの提示などは、エラー検出の性能向上には効果的ではない。
これらの結果は、ReaLMistakeが、LLMの応答におけるエラー検出に関する課題を明らかにする、有用なベンチマークであることを示している。
统计
LLMの応答にエラーが含まれる割合:
GPT-4-0613: 62.1%
Llama 2 70B: 80.0%