本研究では、初級コンピューターサイエンスおよびプログラミング課題を収集し、CSEPrompts と呼ばれる評価フレームワークを構築しました。このフレームワークには、オンラインのコーディングサイトやMOOCから収集した219の課題プロンプトと50の多肢選択問題が含まれています。
8つの最新の大規模言語モデルを用いて、CSEPrompts上での性能を評価しました。以下が主な知見です:
本研究は、大規模言語モデルの教育分野への応用を検討する上で重要な知見を提供しています。今後は、課題プロンプトの数をさらに増やし、より多様なモデルを評価することで、より包括的な理解を得ることができると考えられます。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Nishat Raiha... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02540.pdfDomande più approfondite