Основні поняття
NoMIRACL evaluates LLM robustness in multilingual retrieval-augmented generation, highlighting challenges and model performance.
Анотація
NoMIRACL dataset evaluates LLM robustness in RAG across 18 languages.
Two subsets: non-relevant and relevant, measuring hallucination and error rates.
LLMs struggle with balancing hallucination and error rates, with GPT-4 showing the best tradeoff.
Empirical analysis reveals LLM output patterns and limitations.
Experimental results show LLM performance on non-relevant and relevant subsets.
Статистика
대부분의 모델은 비관련 서브셋에서 88% 이상의 환각율을 관찰합니다.
Mistral은 환각을 잘 다루지만 관련 서브셋에서 최대 74.9%의 오류율을 달성할 수 있습니다.
Цитати
"GPT-4는 두 서브셋 모두에서 최적의 성능 교환을 제공합니다."
"대부분의 LLM은 NoMIRACL 비관련 서브셋에서 성능이 낮아 보입니다."