UltraEval은 대규모 언어 모델 평가를 위한 경량 플랫폼으로, 다음과 같은 특징을 가지고 있다:
경량 사용 모드: 최소한의 의존성과 간단한 설계 및 설치로 사용자가 간단한 명령어로 자동 평가를 시작할 수 있다.
포괄적인 평가 도구: 50개 이상의 널리 사용되는 벤치마크를 제공하며, 각 작업에 맞춤형 프롬프트를 제공한다. 또한 일반적으로 사용되는 메트릭을 복제하고 더 정확한 메트릭 계산을 위한 후처리 방법을 포함한다.
모듈식 아키텍처와 인터페이스: 모델, 데이터, 메트릭의 3가지 주요 모듈이 독립적이고 명확한 기능을 가져 시스템 안정성을 높인다. 또한 뛰어난 확장성으로 사용자가 새로운 모델, 작업, 메트릭 등을 유연하게 추가할 수 있다.
효율적인 추론 엔진: HTTP 서비스로 모델을 배포하여 다양한 소스의 모델을 평가할 수 있으며, 로컬 배포 시 vLLM과 Gunicorn을 활용하여 다중 GPU 가속을 제공한다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Chaoqun He,R... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07584.pdfDypere Spørsmål