Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
対話要約 評価
LLMの生成する対話要約の事実整合性を評価するTOFUEVALベンチマーク
LLMが生成する対話要約には多くの事実誤りが含まれており、大規模LLMでも小規模LLMと同程度の事実誤りを含む。また、LLMを事実整合性評価器として使用しても、非LLMベースの評価メトリクスに劣る。
1