SuperCLUE-Fin은 중국 금융 LLM의 성능을 종합적으로 평가하는 선구적인 벤치마크 프레임워크이다. 금융 컴플라이언스, 리스크 관리, 투자 분석 등 6개 금융 분야와 25개 세부 과제를 통해 모델의 금융 지식, 논리적 추론, 언어 표현력, 수학적 능력, 비즈니스 분석력, 리스크 인지 및 규제 준수 능력 등을 다각도로 평가한다.
실험 결과, 국내 모델인 GLM-4와 MoonShot-v1-128k가 A 등급을 받아 최고 수준을 보였지만, 여전히 GPT-4 Turbo에 뒤처지는 것으로 나타났다. 대부분의 모델은 기본적인 금융 지식은 우수하지만, 실제 금융 문제 해결 및 의사 결정 능력이 부족한 것으로 분석되었다. 이는 금융 지식 데이터베이스 개선, 금융 문제 해석 기준 표준화, 컴플라이언스와 리스크 관리 강화 등이 필요함을 시사한다.
SuperCLUE-Fin은 중국 금융 시장에 특화된 종합적이고 체계적인 평가 도구로, 국내 금융 LLM의 발전 현황을 진단하고 향후 개선 방향을 제시하는 데 기여할 것으로 기대된다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究