核心概念
GPT-4を使用したプログラミング教育におけるフィードバックの効果的な提供と課題の評価。
要約
この研究は、大規模言語モデル、特にGPT-4を使用してプログラミング教育を向上させる方法に焦点を当てています。研究では、GPT-4を使用してプログラミングタスクにフィードバックを提供するウェブアプリケーションの設計が概説されています。51人の学生を対象に1学期間で評価された結果、GPT-4によって生成されたほとんどのフィードバックがコードエラーに効果的に対処していることが示されました。ただし、不正確な提案や幻想的な問題といった課題もあり、さらなる改善が必要であることが示唆されています。
導入
プログラムコースなどの多くの演習がある授業では、フィードバックの提供は時間がかかります。
多くの自動化された解決策が開発されてきました。
大規模言語モデル(LLMs)の開発は新しい可能性を切り開きました。
関連研究
プログラム演習向けのさまざまなツールが既に使用されています。
LLMsの利用は教材作成や学生作業分析など新しい可能性を拓いています。
評価
GPT-4がプログラミング教育向けにどれだけフィードバック提供できるか評価するため、Tutor Kaiというウェブアプリケーションが開発されました。
学生は週ごとのタスクを完了し、LLMによって生成された自動化されたフィードバックを受け取ります。
結果
51人の学生全体から集計したデータでは、Tutor Kaiは広範囲にわたって利用されました。
平均的なフィードバック評価は7段階評価で5.54でした。
個別タスク評価
3つの特定タスクへの解決策から生成されたフィードバックは特定方法論で評価されました。
ホールシュメイテッド問題や不必要な改善提案など様々な問題点が浮かび上がりました。
統計
GPT-4は初心者向けプログラマーから受信した助け要求へ応答する際、「55%」実際問題すべて識別 (Hellas et al.)
ChatGPT(2023年3月:GPT-
3)「79%」回答含むコード (Kiesler et al.)
GPT-
4 Turbo「52%」完全正確・完全回答 (Aziaz et al.)