核心概念
대규모 언어 모델의 환각 평가를 위한 HaluEval-Wild 벤치마크 소개
摘要
HaluEval-Wild은 실제 사용자-언어 모델 상호작용에서 LLM 환각을 평가하기 위한 첫 번째 벤치마크로, 다양한 범주의 500개의 도전적인 쿼리로 구성된 세트를 활용합니다. 다양한 LLM에 대한 포괄적인 분석은 복잡한 쿼리를 처리하면서 환각을 유발하지 않고 정확한 답변을 제공하는 능력에 대한 중요한 통찰을 제공합니다. 특히 지식 증류 모델에서 효과적인 성과를 거둔 동시에 환각을 유발하는 경향을 보이는 모델들이 어려움을 겪는 복잡한 도전에 대한 통찰을 제공합니다. HaluEval-Wild는 LLM 신뢰성에 대한 우리의 이해를 발전시키는데 그치지 않고, 미래 모델의 성능과 신뢰성을 평가하는 데 효과적인 기초를 제공합니다.
統計資料
Alpaca 7B는 환각율이 99.20%로 어려운 쿼리를 처리하는 데 중요한 도전을 겪음.
GPT-4 Turbo는 가장 낮은 평균 환각율인 18.64%로 어려운 쿼리를 효과적으로 처리함.
引述
"환각은 모델이 생성하는 응답이 부정확하거나 논리적이지 않거나 검증할 수 없는 경우를 가리킵니다." - HaluEval-Wild
"모델이 불확실성을 표현하거나 정보 제한을 인정하는 응답은 환각을 포함할 가능성이 적습니다." - HaluEval-Wild