이 연구는 다중 AI 에이전트 모델을 개발하여 다양한 대규모 언어 모델의 코드 생성 성능을 평가하고 비교하였다. 8개의 AI 에이전트가 각각 GPT-3.5, GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Google Bard, LLAMA, Hugging Face 등의 언어 모델을 활용하여 공통된 설명을 기반으로 코드를 생성하였다. 이 과정에서 검증 에이전트가 HumanEval 벤치마크를 활용하여 생성된 코드의 정확성을 평가하였다.
초기 결과에 따르면 GPT-3.5 Turbo 모델이 다른 모델에 비해 상대적으로 우수한 성능을 보였다. 10개의 공통 설명을 제공했을 때 GPT-3.5 Turbo는 7개의 정확한 코드를 생성하여 70%의 정확도를 달성했다. 이는 GPT-4 Turbo(6개 정확)와 비교해서도 우수한 성과이다.
향후 연구에서는 MBPP 벤치마크를 추가로 활용하여 코드 생성 성능 평가를 더욱 정교화할 계획이다. 또한 20명의 다양한 배경의 실무자들과 협력하여 실제 사용자 피드백을 수집하고 모델 개선에 활용할 예정이다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen