UltraEval은 대규모 언어 모델 평가를 위한 경량 플랫폼으로, 다음과 같은 특징을 가지고 있다:
경량 사용 모드: 최소한의 의존성과 간단한 설계 및 설치로 사용자가 간단한 명령어로 자동 평가를 시작할 수 있다.
포괄적인 평가 도구: 50개 이상의 널리 사용되는 벤치마크를 제공하며, 각 작업에 맞춤형 프롬프트를 제공한다. 또한 일반적으로 사용되는 메트릭을 복제하고 더 정확한 메트릭 계산을 위한 후처리 방법을 포함한다.
모듈식 아키텍처와 인터페이스: 모델, 데이터, 메트릭의 3가지 주요 모듈이 독립적이고 명확한 기능을 가져 시스템 안정성을 높인다. 또한 뛰어난 확장성으로 사용자가 새로운 모델, 작업, 메트릭 등을 유연하게 추가할 수 있다.
효율적인 추론 엔진: HTTP 서비스로 모델을 배포하여 다양한 소스의 모델을 평가할 수 있으며, 로컬 배포 시 vLLM과 Gunicorn을 활용하여 다중 GPU 가속을 제공한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Chaoqun He,R... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07584.pdfYêu cầu sâu hơn