核心概念
LLM 기반 다중 에이전트 프레임워크 MAGIS는 GitHub 이슈 해결을 위해 관리자, 저장소 관리자, 개발자, 품질 보증 엔지니어 등 다양한 에이전트의 협업을 활용하여 LLM의 한계를 극복한다.
要約
본 연구는 LLM이 GitHub 이슈 해결에 어려움을 겪는 이유를 실증적으로 분석하고, 이를 바탕으로 LLM 기반 다중 에이전트 프레임워크 MAGIS를 제안한다.
실증 분석 결과, LLM의 GitHub 이슈 해결 성능은 수정 라인 위치와 코드 변경 복잡도에 크게 영향을 받는 것으로 나타났다. 이에 MAGIS는 관리자, 저장소 관리자, 개발자, 품질 보증 엔지니어 등 다양한 에이전트의 협업을 통해 이러한 한계를 극복한다.
MAGIS의 계획 단계에서 저장소 관리자 에이전트는 관련 파일을 효과적으로 찾아내고, 관리자 에이전트는 세부 작업을 정의하여 개발자 팀을 구성한다. 코딩 단계에서 개발자 에이전트는 수정 라인을 정확히 찾아내고, 품질 보증 엔지니어 에이전트는 코드 변경을 검토하여 품질을 보장한다.
실험 결과, MAGIS는 SWE-bench 벤치마크에서 GPT-4 대비 8배 향상된 13.94%의 이슈 해결률을 달성하였다. 이는 MAGIS의 에이전트 간 협업이 LLM의 한계를 효과적으로 극복할 수 있음을 보여준다.
統計
코드 변경 복잡도가 높을수록(파일 수, 함수 수 증가) GitHub 이슈 해결률이 낮아진다.
수정 라인 위치를 정확히 찾아내는 것이 GitHub 이슈 해결에 중요하다.
引用
"이 코드 변경은 K-means 알고리즘의 구현을 수정하지만 완전히 올바르지 않은 것 같습니다."
"한 번만 실행하면 n_init 번 실행하고 최선의 결과를 선택하는 것보다 성능이 떨어질 수 있습니다."