UltraEval은 경량, 포괄성, 모듈성, 효율성을 특징으로 하는 사용자 친화적인 평가 프레임워크로, 모델, 데이터, 메트릭을 자유롭게 조합하여 대규모 언어 모델의 종합적인 능력을 평가할 수 있다.
단일 프롬프트 평가로는 대규모 언어 모델의 성능을 정확하게 평가할 수 없으며, 다양한 프롬프트 문장을 활용한 다중 프롬프트 평가가 필요하다.
다양한 문화에 걸쳐 대규모 언어 모델(LLM)의 문화적 지식을 효과적으로 측정하고 추적하기 위해 새롭게 개발된 벤치마크인 CulturalBench를 소개합니다.
대규모 언어 모델(LLM)의 순차적 명령 수행 능력을 평가하기 위한 새로운 벤치마크인 SIFo를 소개하며, 실험 결과 현존하는 LLM은 순차적 명령 수행 능력이 부족함을 시사한다.
대규모 언어 모델(LLM) 평가는 재현성, 신뢰성, 견고성을 확보하기 위해 표준화된 접근 방식과 명확한 지침이 필요하다.
ProcBench는 대규모 언어 모델(LLM)의 추론 능력, 특히 명시적 다단계 지침을 얼마나 잘 따르는지 평가하기 위해 고안된 벤치마크입니다.
도구 증강 대규모 언어 모델(LLM)의 환각 현상을 심층적으로 진단하고 분석하기 위해 다단계 벤치마크인 ToolBH를 소개합니다.
대규모 언어 모델(LLM) 평가에서 기존의 스칼라 보상 모델의 한계를 극복하기 위해, 본 논문에서는 LLM이 생성한 이유를 바탕으로 선호 판단을 생성하는 새로운 접근 방식인 Con-J를 제안합니다. Con-J는 스칼라 모델보다 해석 가능성과 데이터 편향에 대한 강건성이 뛰어나며, 다양한 작업에서 우수한 성능을 보입니다.
본 논문에서는 대규모 언어 모델(LLM)을 법정에서 서로 경쟁하는 변호사, 배심원, 판사 역할을 하는 다중 에이전트 시스템으로 활용하여 LLM 출력 결과를 평가하는 새로운 프레임워크를 제안합니다.
최근 개발된 대규모 언어 모델(LLM)의 장문 맥락에서의 수학적 추론 능력을 평가하기 위해 자동화된 벤치마크인 MATHHAY를 소개한다. MATHHAY는 실제 시나리오를 기반으로 다양한 난이도와 입력 길이를 가진 문제를 제공하며, 현재 LLM들이 여전히 장문 맥락에서의 수학적 추론에 어려움을 겪고 있음을 보여준다.