HaluEval-Wild은 실제 사용자-언어 모델 상호작용에서 LLM 환각을 평가하기 위한 첫 번째 벤치마크로, 다양한 범주의 500개의 도전적인 쿼리로 구성된 세트를 활용합니다. 다양한 LLM에 대한 포괄적인 분석은 복잡한 쿼리를 처리하면서 환각을 유발하지 않고 정확한 답변을 제공하는 능력에 대한 중요한 통찰을 제공합니다. 특히 지식 증류 모델에서 효과적인 성과를 거둔 동시에 환각을 유발하는 경향을 보이는 모델들이 어려움을 겪는 복잡한 도전에 대한 통찰을 제공합니다. HaluEval-Wild는 LLM 신뢰성에 대한 우리의 이해를 발전시키는데 그치지 않고, 미래 모델의 성능과 신뢰성을 평가하는 데 효과적인 기초를 제공합니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhiying Zhu,... lúc arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04307.pdfYêu cầu sâu hơn