이 논문은 데이터 과학 에이전트의 성능을 평가하기 위한 DSBench라는 종합적인 벤치마크를 소개한다. DSBench는 현실 세계의 데이터 과학 과제를 반영하는 466개의 데이터 분석 과제와 74개의 데이터 모델링 과제로 구성되어 있다.
데이터 분석 과제는 데이터와 질문의 의도를 완전히 이해해야 하는 데이터 분석 질문에 답하는 것이다. 데이터 모델링 과제는 데이터에서 학습하고 테스트 세트에 일반화하여 예측 모델을 만드는 것이다.
DSBench는 기존 벤치마크와 달리 긴 문맥, 다중 모달 과제 배경, 대용량 데이터 파일 및 다중 테이블 구조 처리, 엔드-투-엔드 데이터 모델링 과제 등 현실 세계의 데이터 과학 과제를 반영한다.
실험 결과, 최신 LLM과 LVLM 모델들이 대부분의 과제를 해결하지 못하는 것으로 나타났다. 가장 우수한 에이전트도 데이터 분석 과제의 34.12%만 해결하고 데이터 모델링 과제에서 34.74%의 상대적 성능 격차를 보였다. 이는 데이터 과학 에이전트의 실용성, 지능성, 자율성을 높이기 위한 추가적인 발전이 필요함을 시사한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies