LLMの応答におけるエラーを検出するための新しいベンチマーク「ReaLMistake」を開発した。このベンチマークは、LLMによって生成された応答に含まれる客観的で現実的で多様なエラーを収集することを目的としている。