核心概念
雖然人工智能大型語言模型在解決物理問題和評分方面顯示出一定的潛力,但其數學錯誤和偏向寬鬆的評分標準限制了其在實際教學中的應用。引入評分標準可以顯著提高評分準確性和一致性,為未來人工智能評分系統的發展提供了方向。
摘要
論文資訊
- 標題:大型語言模型在教育評分中的應用:以物理學科為例的實際測試
- 作者:Ryan Mok, Faraaz Akhtar, Louis Clare, Christine Li, Jun Ida, Lewis Ross, and Mario Campanelli
- 機構:倫敦大學學院物理與天文學系
- 日期:2024年11月22日
研究目的
本研究旨在評估大型語言模型 (LLM) 自動化評分系統在物理教育中的可行性和有效性,探討其是否能為大學程度的物理問題提供準確、一致的評分和反饋。
研究方法
- 從古典力學、量子力學和電磁理論三個物理學科中選取30道題目,並制定相應的評分標準和參考答案。
- 使用ChatGPT-4生成90份學生解答(每個題目三份),涵蓋不同程度的正確性和解題思路。
- 分別使用GPT-4、GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro四種LLM聊天機器人,在「無評分標準」和「有評分標準」兩種情況下,對學生解答進行評分,並生成反饋意見。每個題目下每份答案均由聊天機器人評分五次,取平均值作為最終機器評分。
- 邀請四位倫敦大學學院的研究生根據評分標準對90份答案進行評分,取平均值作為最終人工評分。
- 比較分析人工評分和機器評分的結果,探討LLM評分表現與其解題能力之間的關係,並使用t-SNE和k-means聚類算法分析不同物理學科的評分差異。
主要發現
- 在沒有評分標準的情況下,所有LLM聊天機器人都表現出明顯的寬鬆評分傾向,主要原因是LLM在理解和評估數學表達式方面存在錯誤和幻覺,導致對錯誤答案給予過高的分數。
- 引入評分標準後,LLM的評分準確性和一致性都有顯著提高,其中GPT-4的表現最佳,其評分結果與人工評分最為接近。
- LLM的評分能力与其解題能力密切相關,能夠準確解決問題的LLM在評分時也更加準確。
- 聚類分析顯示,古典力學問題的評分方式與其他物理學科存在差異,可能需要針對不同學科的特點調整評分策略。
主要結論
- 目前LLM聊天機器人在沒有額外資源輔助的情況下,無法獨立完成大學物理題目的評分工作。
- 採用評分標準可以顯著提升LLM的評分表現,為未來開發基於LLM的自動化評分系統提供了可行方案。
- 提高LLM的解題能力、理解能力和數學推理能力是提升其評分能力的關鍵。
研究意義
本研究為評估LLM在教育評分中的應用提供了一個量化分析方法,揭示了LLM評分的優缺點,並為未來人工智能評分系統的發展方向提供了參考。
研究限制與未來方向
- 本研究僅選取了三個物理學科,未來可以擴展到其他學科,例如熱力學和統計力學,以驗證研究結果的普適性。
- 未來研究可以探索更優化的提示策略和評分標準設計,例如使用少量樣本學習,以進一步提高LLM的評分準確性和一致性。
- 可以進一步研究不同LLM模型之間的評分差異,以及溫度設置對評分結果的影響。
統計資料
本研究分析了四種LLM模型:GPT-4、GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。
研究人員從古典力學、量子力學和電磁理論三個物理學科中選取了30道題目。
使用ChatGPT-4生成了90份學生解答,每個題目三份。
邀請四位研究生對90份答案進行評分,取平均值作為最終人工評分。
在沒有評分標準的情況下,所有LLM聊天機器人的評分都比人工評分更寬鬆。
引入評分標準後,LLM的評分準確性和一致性都有顯著提高,其中GPT-4的表現最佳。