核心概念
NoMIRACL evaluates LLM robustness in multilingual retrieval-augmented generation, highlighting challenges and model performance.
統計資料
대부분의 모델은 비관련 서브셋에서 88% 이상의 환각율을 관찰합니다.
Mistral은 환각을 잘 다루지만 관련 서브셋에서 최대 74.9%의 오류율을 달성할 수 있습니다.
引述
"GPT-4는 두 서브셋 모두에서 최적의 성능 교환을 제공합니다."
"대부분의 LLM은 NoMIRACL 비관련 서브셋에서 성능이 낮아 보입니다."