데이터 과학 에이전트가 데이터 과학 전문가가 되기까지 얼마나 멀어졌는가: DSBench 소개
데이터 과학 에이전트의 성능을 평가하기 위해 DSBench라는 종합적인 벤치마크를 소개한다. DSBench는 현실 세계의 데이터 과학 과제를 반영하는 466개의 데이터 분석 과제와 74개의 데이터 모델링 과제로 구성되어 있다. 최신 LLM과 LVLM 모델들이 이 벤치마크에서 대부분의 과제를 해결하지 못하는 것으로 나타났으며, 가장 우수한 에이전트도 데이터 분석 과제의 34.12%만 해결하고 데이터 모델링 과제에서 34.74%의 상대적 성능 격차를 보였다. 이는 데이터 과학 에이전트의 실용성, 지능성, 자율성을 높이기 위한 추가적인 발전이 필요함을 시사한다.