Core Concepts
다양한 LLM(ChatGPT(3.5), Microsoft Copilot, GitHub Copilot Chat, Google Bard)의 강점과 약점을 체계적으로 평가하여, 학생들과 교수들이 특정 과제에 가장 적합한 LLM을 선택할 수 있도록 한다.
Abstract
이 연구는 ChatGPT(3.5), Microsoft Copilot, GitHub Copilot Chat, Google Bard 등 다양한 대형 언어 모델(LLM)의 강점과 약점을 체계적으로 평가했다. 코드 설명 및 문서화, 과제 해결, 기술 면접 준비, 새로운 개념 및 프레임워크 학습, 이메일 작성 등 대학교 컴퓨터공학 학생들이 일반적으로 수행하는 다양한 과제에 대해 평가를 진행했다.
평가 결과, 각 LLM은 서로 다른 과제에서 강점을 보였으며 어떤 LLM도 모든 과제에서 최고의 성능을 보이지는 않았다. 이를 통해 학생들과 교수들이 특정 과제에 가장 적합한 LLM을 선택할 수 있도록 도움을 주었다.
연구진은 학생들과 교수들이 LLM을 효과적으로 활용할 수 있도록 다음과 같은 권장 사항을 제시했다:
학생들:
콘텐츠 작성 시 LLM을 활용하되, 정확성과 신뢰성을 검증할 것
과제 수행 시 LLM을 아이디어 생성과 연구 도구로 활용할 것
컴퓨터공학 과제 수행 시 LLM을 코드 설명, 새로운 프레임워크 및 개념 학습, 의문 해결 등에 활용할 것
교수들:
LLM 활용에 대한 지침을 제공하고, 학생들의 무분별한 사용을 방지할 것
비판적 사고와 논리적 추론 능력을 요구하는 과제를 설계할 것
사회과학 및 인문학 과제의 경우 LLM의 에세이 작성 능력을 고려하여 과제를 설계할 것
컴퓨터공학 과제의 경우 실제 세계 응용 프로그램 개발을 요구하는 과제를 설계할 것
대학과 연구자들이 교육 분야를 위한 LLM을 개발할 수 있도록 협력할 것
Stats
"LLM은 다양한 과제에서 서로 다른 강점을 보였으며, 어떤 LLM도 모든 과제에서 최고의 성능을 보이지는 않았다."
"Microsoft Copilot은 코드 설명 및 문서화, 이론 과제, 인문학 과제에서 가장 뛰어난 성능을 보였다."
"GitHub Copilot Chat은 프로그래밍 과제와 기술 면접 준비에서 가장 뛰어난 성능을 보였다."
"Google Bard는 새로운 개념 및 프레임워크 학습에서 가장 뛰어난 성능을 보였다."
"ChatGPT는 이메일 작성에서 가장 뛰어난 성능을 보였다."