Kernekoncepter
최신 AI, 기계 학습 및 NLP 기술의 발전으로 인해 대규모 데이터로 학습된 거대 언어 모델(LLM)이 개발되었습니다. 이러한 LLM은 학생들이 AI 생성 콘텐츠를 활용할 수 있게 하여 컴퓨터 과학 및 프로그래밍 교육에 영향을 미치고 있습니다. CSEPrompts는 입문 컴퓨터 과학 과제와 퀴즈를 포함하는 벤치마크 프레임워크로, 다양한 LLM의 성능을 평가하여 이러한 기술이 교육에 미치는 영향을 이해하고자 합니다.
Resumé
이 논문에서는 CSEPrompts라는 새로운 평가 프레임워크를 소개합니다. CSEPrompts는 코딩 웹사이트와 학술 MOOC에서 수집한 269개의 프로그래밍 과제와 퀴즈로 구성되어 있습니다.
코딩 웹사이트 섹션:
- CodingBat, LearnPython, Edabit, Python Principles, HackerRank 등 5개 플랫폼에서 118개의 프로그래밍 과제를 수집했습니다.
- 이 과제들은 대체로 짧고 간단한 편입니다.
MOOC 섹션:
- Harvard, Michigan, Georgia Tech 등 6개 대학의 Python 프로그래밍 입문 과정에서 101개의 프로그래밍 과제를 수집했습니다.
- 이 과제들은 코딩 웹사이트의 과제보다 더 복잡하고 심도 있는 편입니다.
- 또한 4개 GT 과정에서 50개의 다지선다형 퀴즈도 수집했습니다.
실험 결과:
- 8개 LLM 모델의 성능을 평가했습니다.
- 코딩 웹사이트 과제보다 MOOC 과제에서 LLM 성능이 더 낮게 나타났습니다.
- LLM은 코드 생성보다 다지선다형 퀴즈 답변에서 더 좋은 성능을 보였습니다.
- 일반 LLM과 코드 전문 LLM의 성능 차이는 크지 않았습니다.
Statistik
대부분의 LLM이 코딩 웹사이트 과제보다 MOOC 과제에서 더 낮은 성능을 보였습니다.
GPT3.5가 다른 모델에 비해 전반적으로 가장 높은 성능을 보였습니다.
LLM은 코드 생성보다 다지선다형 퀴즈 답변에서 더 좋은 성능을 보였습니다.
Citater
"최신 AI, 기계 학습 및 NLP 기술의 발전으로 인해 대규모 데이터로 학습된 거대 언어 모델(LLM)이 개발되었습니다."
"이러한 LLM은 학생들이 AI 생성 콘텐츠를 활용할 수 있게 하여 컴퓨터 과학 및 프로그래밍 교육에 영향을 미치고 있습니다."