核心概念
大規模言語モデルを用いて、初級コンピューターサイエンスおよびプログラミング課題の実行性能を評価する。
摘要
本研究では、初級コンピューターサイエンスおよびプログラミング課題を収集し、CSEPrompts と呼ばれる評価フレームワークを構築しました。このフレームワークには、オンラインのコーディングサイトやMOOCから収集した219の課題プロンプトと50の多肢選択問題が含まれています。
8つの最新の大規模言語モデルを用いて、CSEPrompts上での性能を評価しました。以下が主な知見です:
- 大規模言語モデルは、既存のベンチマークと比べて、MOOCの課題プロンプトでは良好な成績を収めたが、アカデミックな課題プロンプトでは劣る傾向にあった。
- オンラインのコーディングサイトの課題プロンプトは、大規模言語モデルにとって比較的容易であったが、MOOCの課題プロンプトはより高度であった。
- 大規模言語モデルは、プログラミングコードの生成よりも、多肢選択問題の回答の方が得意であった。
- 特化型の「Code LLM」は、一般的な大規模言語モデルよりもプログラミングコードの生成に優れていた。
本研究は、大規模言語モデルの教育分野への応用を検討する上で重要な知見を提供しています。今後は、課題プロンプトの数をさらに増やし、より多様なモデルを評価することで、より包括的な理解を得ることができると考えられます。
統計資料
プログラミング課題の平均トークン数は158、多肢選択問題は106でした。
アカデミックな課題プロンプトは、オンラインのコーディングサイトの課題プロンプトよりも平均トークン数が多く、より高度であることが示唆されます。