下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
語言模型評估、科學發現自動化
ScienceAgentBench:邁向嚴謹評估用於數據驅動科學發現的語言代理
為促進數據驅動科學發現自動化的發展,本文提出一個新的基準測試 ScienceAgentBench,用於評估語言代理在真實科學任務中的程式碼生成能力,並強調了當前語言代理的局限性以及未來發展方向。
1