本論文は、データサイエンス代理人の能力を評価するための包括的なベンチマーク「DSBench」を提案している。DSBenchは、データ分析タスクと予測モデリングタスクの2つのカテゴリから構成されており、現実世界のデータサイエンス課題に近い設定を提供する。
データ分析タスクでは、長文の説明文、マルチモーダルな背景、大規模なデータファイルや複数のテーブル構造への対応など、複雑な要素が含まれている。一方、予測モデリングタスクでは、エンドツーエンドの設定で、モデル設計、コード実装、デバッグなど、幅広い能力を要求する。
評価の結果、最先端のLLMやLVLMを含む代理人システムは、ほとんどのタスクを解決することができず、データ分析タスクで最高34.12%の正答率、予測モデリングタスクで34.74%のRelative Performance Gapしか達成できなかった。これらの結果は、より実用的で知的な自律型データサイエンス代理人の開発に向けて、さらなる進化が必要であることを示唆している。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor