本研究では、LLMの応答におけるエラーを検出するための新しいベンチマーク「ReaLMistake」を開発した。従来のベンチマークでは、主観的な評価基準や限定的なエラーの種類しか扱っていなかったが、ReaLMistakeは以下の4つの客観的な評価基準に基づいて設計されている:
ReaLMistakeには3つのタスクが含まれており、これらのタスクはLLMに多様なエラーを引き起こすように設計されている。これらのタスクは、数学の単語問題の生成、細粒度な事実検証、回答可能性の分類である。
本研究では、12種類のLLMを用いてReaLMistakeのベンチマークを評価した。その結果、以下のことが明らかになった:
これらの結果は、ReaLMistakeが、LLMの応答におけるエラー検出に関する課題を明らかにする、有用なベンチマークであることを示している。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Ryo Kamoi,Sa... às arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03602.pdfPerguntas Mais Profundas