toplogo
Anmelden

SimGrade: Improving Human Grading with Code Similarity Measures


Kernkonzepte
Graders can improve accuracy by grading similar submissions consecutively.
Zusammenfassung

1. Introduction

  • Programming problems common in exams.
  • Challenges in grading due to diverse student submissions.
  • Importance of human grading for free-response questions.

2. Natural Grading Error

  • Quantifying inconsistencies in historical grading sessions.
  • Troubling inconsistencies in grades assigned by graders.
  • Linear relationship between submission similarity and grading error.

3. Methods

  • Generating program embeddings for all student submissions.
  • Hypothesizing that similarity influences grader accuracy.
  • Introducing algorithms to assist human grading.

4. Experimental Results

  • Embeddings show meaningful similarity scores.
  • Graders score more accurately with similar submissions.
  • Algorithms improve accuracy over random baseline.

5. Discussion

  • Proposed algorithms enhance grading accuracy.
  • Cluster algorithm yields lowest grading error, while snake algorithm has lowest validation distance.
  • Petal algorithm offers a balanced trade-off between the two.
edit_icon

Zusammenfassung anpassen

edit_icon

Mit KI umschreiben

edit_icon

Zitate generieren

translate_icon

Quelle übersetzen

visual_icon

Mindmap erstellen

visit_icon

Quelle besuchen

Statistiken
グレーダーが学生の提出物にスコアを割り当てる際、以前に似た提出物を見た場合、より正確にスコアリングできる可能性があるという仮説を検証しました。
Zitate

Wichtige Erkenntnisse aus

by Sonja Johnso... um arxiv.org 03-25-2024

https://arxiv.org/pdf/2403.14637.pdf
SimGrade

Tiefere Fragen

提案されたアルゴリズムは実際の採点セッションでどのように適用されますか?

提案されたアルゴリズムは、実際の採点セッションでは次のように適用されます。まず、各問題ごとにランダムに5つの検証提出物が選択されます。その後、439個の非検証提出物を10つのサブセット(それぞれ1人のグレーダー向け)に分割し、5つの検証提出物を追加してから、各サブミットが与えられたアルゴリズムに従って順序付けられます。

提出物をグレーダーに割り当てる際の動的な負荷バランス調整は、実践上どのような影響を与えますか?

現実世界でグレーダー間で良い検証提出物を選択し、最適な方法で動的に負荷を均等化することは重要です。特定のグレーダーが他者よりも早く終了した場合や再度別な所属先へ移行する必要性がある場合でも最善です。これら状況下では、「終了」したグレーダーは通常他者が担当している異なったクラスターよりも近いクラスターへ移行します。このプロセス中、「クラスターアルゴリズム」では初めて大きく異なるプログラム群と接触する可能性があり得る一方、「蛇アルゴリズム」では全体的な解決空間内をトラバースすることから「終了」という状況下でも様々すばやく対応可能です。「ペタルアルゴリズム」も同じ理由から「切替コスト」効果測定時有益です。

プログラム埋め込み生成方法が今後改善されると、人間採点一貫性がさらに向上する可能性はありますか?

プログラム埋め込み生成手法自体おそらく将来改善傾向だろう事考えれば確か人間採点一貫性向上可能性高いです。 例えばWord2vec単純手法使用しながらもエンベディング品質高い意味情報持ち,更多学生コード正確評価能力増進します。 また,コード埋め込み生成技術発展未来,人工知能AI技術利用範囲広まり,GitHub等巨大データ集積活用透明度増加予想. これ些細変化教育現場及び業務面深刻影響及ぶ.新規テクニック導入時期到来前述作業フロウ完全浸透見込み.
0
star