核心概念
CIBench 是一個全新的評估框架,旨在評估大型語言模型利用程式碼直譯器解決複雜資料科學任務的能力,透過模擬真實互動式程式設計情境,提供更全面深入的評估方式。
摘要
CIBench 研究論文摘要
研究目標:
本研究旨在提出一個名為 CIBench 的全新基準測試,用於全面評估大型語言模型(LLM)在資料科學任務中利用程式碼直譯器的能力。
方法:
CIBench 包含一個透過 LLM 與人類協作方式建構的評估資料集,以及兩種評估模式。
- 資料集:模擬真實工作流程,利用連續且互動式的 IPython 會話,涵蓋資料清理、視覺化、建模、自然語言處理、圖像處理等多個資料科學領域,並包含 Matplotlib、Pandas、PyTorch 等常用 Python 模組。
- 評估模式:
- 端到端模式:評估 LLM 自主解決連續問題的能力,需根據程式碼直譯器的回饋進行自我修正。
- 預言模式:模擬人類指導學習,提供 LLM 正確的程式碼片段,評估其在人類互動下的學習能力。
主要發現:
- 開源 LLM 在處理需要進階程式設計和推理能力的建模任務時面臨挑戰,例如使用 PyTorch 和 TensorFlow 等模組。
- 在相同模型規模下,較大的模型在各項指標上表現更出色。
- 預言模式的評估結果普遍優於端到端模式,顯示人類互動能幫助 LLM 提升效能。
結論:
CIBench 為評估 LLM 在資料科學任務中的程式碼直譯器能力提供了新的基準測試,實驗結果揭示了當前 LLM 的局限性,並為未來發展方向提供了參考,例如增強 LLM 根據回饋修正錯誤的能力、提升其理解多輪互動中使用者意圖的能力,以及強化其推理能力。
意義:
CIBench 的提出有助於推動 LLM 在資料科學領域的應用,促進更強大、更實用的 LLM 的發展。
限制與未來研究方向:
- CIBench 目前僅限於 Python 語言,未來可擴展至其他程式語言。
- 評估指標在衡量某些資料科學任務時存在局限性,例如使用 PyTorch 訓練模型以及涉及隨機性的任務。
統計資料
開源 LLM 在 70B 參數規模下,整體表現比 GPT-4 低 10%。
GPT-4-1106-preview 在端到端模式中表現優於所有其他模型。
LLama-3-8B-Instruct 在 7B 參數規模的模型中表現最佳。
InternLM2-20B-Chat 在 13B-20B 參數規模的模型中表現最佳。
LLama-3-70B-Instruct 在 70B 參數規模的模型中表現最佳。
GPT-4-1106-preview 和 gpt-4o 的表現優於所有其他模型。