이 연구는 다중 AI 에이전트 모델을 개발하여 다양한 대규모 언어 모델의 코드 생성 성능을 평가하고 비교하였다. 8개의 AI 에이전트가 각각 GPT-3.5, GPT-3.5 Turbo, GPT-4, GPT-4 Turbo, Google Bard, LLAMA, Hugging Face 등의 언어 모델을 활용하여 공통된 설명을 기반으로 코드를 생성하였다. 이 과정에서 검증 에이전트가 HumanEval 벤치마크를 활용하여 생성된 코드의 정확성을 평가하였다.
초기 결과에 따르면 GPT-3.5 Turbo 모델이 다른 모델에 비해 상대적으로 우수한 성능을 보였다. 10개의 공통 설명을 제공했을 때 GPT-3.5 Turbo는 7개의 정확한 코드를 생성하여 70%의 정확도를 달성했다. 이는 GPT-4 Turbo(6개 정확)와 비교해서도 우수한 성과이다.
향후 연구에서는 MBPP 벤치마크를 추가로 활용하여 코드 생성 성능 평가를 더욱 정교화할 계획이다. 또한 20명의 다양한 배경의 실무자들과 협력하여 실제 사용자 피드백을 수집하고 모델 개선에 활용할 예정이다.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas