核心概念
開源大型語言模型在生成和評估程式設計回饋方面的表現可媲美專有模型,為程式設計教育提供了透明、經濟且高效的解決方案。
摘要
書目資訊
Koutcheme, C., Dainese, N., Sarsa, S., Hellas, A., Leinonen, J., Ashraf, S., & Denny, P. (2024). Evaluating Language Models for Generating and Judging Programming Feedback. arXiv preprint arXiv:2407.04873v2.
研究目標
本研究旨在探討開源大型語言模型 (LLM) 在生成和評估程式設計回饋方面的效率,並將其與專有模型進行比較。
研究方法
研究人員使用 Socratic guidance benchmark 資料集,其中包含學生提交的 Python 程式設計習題。他們評估了八個語言模型(五個開源模型和三個專有模型)生成除錯解釋和修復建議的能力。評估採用人工標註和自動評估兩種方式。人工標註根據完整性、清晰度和準確性等標準對模型生成的回饋進行評分。自動評估則使用一個語言模型作為評委,根據預先定義的標準對另一個語言模型生成的回饋進行評分。
主要發現
- 開源語言模型(特別是 Llama-3.1-70B)在生成和評估程式設計回饋方面的表現與專有模型(如 GPT-3.5-turbo 和 GPT-4)相當。
- 語言模型在評估其他模型生成的回饋時表現優於評估自身生成的回饋。
- 將多個模型組合成集成模型並未提高評估質量。
- 為模型提供參考答案(例如,正確的錯誤描述和修復方法)可以顯著提高其評估性能。
主要結論
開源大型語言模型是生成和評估程式設計回饋的可行方案,為程式設計教育提供了透明、經濟且高效的解決方案。
研究意義
這項研究強調了開源語言模型在程式設計教育中的潛力,並為開發自動化程式設計回饋工具提供了有價值的見解。
局限性和未來研究方向
本研究的局限性包括:評估的程式設計語言和回饋類型有限、人工標註者數量有限以及缺乏對不同提示策略的探索。未來的研究方向包括:評估模型生成其他類型回饋的能力、探索不同的提示策略以及開發更精確的自動評估方法。
統計資料
研究使用了 Socratic guidance benchmark 資料集,其中包含 57 個程式設計作業和學生提交的錯誤程式碼。
研究評估了 8 個語言模型,包括 5 個開源模型和 3 個專有模型。
人工標註者對 456 個模型輸出進行了評估。
研究使用了 Cohen's Kappa 係數來評估標註者之間的一致性,結果為 0.54。
在自動評估中,研究使用了 f0.5 分數和 kappa 分數來評估模型的評估性能。
引述
"Our findings suggest that open-source language models are competitive with proprietary models for both generating and assessing programming feedback."
"Given the potential benefits of open-source models in terms of transparency, trust, and cost, we argue that they should be increasingly adopted in computing education contexts."