BizBench는 금융 및 비즈니스 분야에서 필요한 정량적 추론 능력을 평가하기 위한 새로운 벤치마크이다. 이 벤치마크는 프로그램 합성, 수량 추출, 도메인 지식 등 3가지 유형의 과제로 구성되어 있다.
프로그램 합성 과제에서는 금융 전문가가 작성한 질문에 대해 Python 코드를 생성하여 답변을 도출하는 능력을 평가한다. 이를 통해 모델의 금융 지식, 문서 이해 능력, 문제 해결 능력을 종합적으로 측정할 수 있다.
수량 추출 과제에서는 금융 보고서 및 문서에서 관련 수치 정보를 정확하게 추출하는 능력을 평가한다. 이를 통해 모델의 금융 문서 이해 능력을 측정할 수 있다.
도메인 지식 과제에서는 금융 및 비즈니스 분야의 개념, 용어, 공식 등에 대한 이해도를 평가한다. 이를 통해 모델의 금융 및 비즈니스 배경 지식을 측정할 수 있다.
BizBench는 기존 금융 NLP 벤치마크와 달리 정량적 추론 능력에 초점을 맞추고 있다. 이를 통해 실제 금융 및 비즈니스 현장에서 요구되는 모델의 능력을 종합적으로 평가할 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문