Conceitos essenciais
인간의 피드백을 통합하는 LLM 기반 소프트웨어 개발 에이전트 프레임워크(HULA)는 실제 환경에서 소프트웨어 개발 프로세스를 효율적으로 향상시킬 수 있다.
Resumo
본 연구 논문에서는 인간 참여형 대규모 언어 모델(LLM) 기반 소프트웨어 개발 에이전트 프레임워크인 HULA를 소개하고, 아틀라시안 JIRA 환경에 실제 배포하여 평가한 결과를 제시한다. HULA는 소프트웨어 엔지니어가 코딩 계획 및 소스 코드 생성 과정에 참여하여 LLM을 개선하고 안내할 수 있도록 설계되었다.
본 연구는 세 단계의 평가를 통해 HULA의 효과성을 검증한다. 첫째, 오프라인 평가에서는 SWE-Bench 및 아틀라시안 내부 데이터셋을 사용하여 인간의 피드백 없이 HULA의 성능을 측정한다. 둘째, 온라인 평가에서는 실제 663개의 JIRA 이슈를 사용하여 인간의 피드백을 통합한 HULA의 성능을 측정한다. 마지막으로, 설문 조사를 통해 실제 환경에서 HULA를 사용하는 아틀라시안 실무자들의 인식을 조사한다.
주요 연구 결과는 다음과 같다.
- 오프라인 평가: HULA는 SWE-Bench 데이터셋에서 높은 성공률로 코드를 생성하고 파일을 정확하게 식별하는 것으로 나타났다. 그러나 아틀라시안 내부 데이터셋에서는 성능이 다소 낮았는데, 이는 데이터의 다양성과 복잡성 때문인 것으로 분석된다.
- 온라인 평가: 실제 환경에서 HULA는 높은 계획 생성 및 승인율을 보였으며, 상당수의 PR이 성공적으로 병합되었다. 이는 인간의 피드백을 통합함으로써 LLM 기반 에이전트의 효과성을 향상시킬 수 있음을 시사한다.
- 설문 조사: 아틀라시안 실무자들은 HULA가 개발 시간과 노력을 줄이는 데 도움이 되며, 특히 간단한 작업을 해결하고 계획 및 코드 작성을 시작하는 데 유용하다고 평가했다. 그러나 코드 기능의 정확성 및 코드 변경의 완전성 측면에서는 여전히 개선의 여지가 있는 것으로 나타났다.
본 연구를 통해 얻은 교훈은 다음과 같다.
- LLM 기반 소프트웨어 개발 에이전트의 성능은 자세한 입력 설명에 크게 좌우되지만, 어떤 정보가 필요한지에 대한 추가적인 연구가 필요하다.
- 기능적 정확성을 평가하는 것은 단위 테스트 사례를 통과하는 것 이상으로 확장되어야 하며, 코드의 기능적 정확성을 평가하기 위한 새로운 접근 방식이 필요하다.
결론적으로, HULA는 인간과 LLM 간의 협력적인 소프트웨어 개발을 가능하게 하는 유망한 프레임워크이다. 본 연구는 LLM 기반 에이전트가 실제 소프트웨어 개발 프로세스에 통합될 수 있는 가능성을 보여주었으며, 향후 더욱 발전된 AI 기반 소프트웨어 개발 도구 개발의 토대를 마련했다.
Estatísticas
HULA는 SWE-Bench 데이터셋에서 이슈의 97%에 대해 계획 및 코드 생성을 성공적으로 완료했다.
HULA는 아틀라시안 내부 데이터셋에서 이슈의 100%에 대해 계획 및 코드 생성을 성공적으로 완료했다.
SWE-Bench 데이터셋에서 HULA는 이슈의 84%에 대해 완벽한 파일 현지화(Perfect File Localization)를 달성했다.
HULA가 생성한 코드는 SWE-Bench 데이터셋에서 인간이 작성한 코드와 평균 45%의 유사성 점수를 기록했다.
HULA는 SWE-Bench 데이터셋에서 이슈의 31%에 대해 단위 테스트를 완벽하게 통과했다.
HULA는 아틀라시안 내부 데이터셋에서 이슈의 15%에 대해 완벽한 파일 현지화를 달성했다.
HULA가 생성한 코드는 아틀라시안 내부 데이터셋에서 인간이 작성한 코드와 평균 30%의 유사성 점수를 기록했다.
HULA는 실제 환경에서 663개의 JIRA 이슈 중 527개 이슈에 대한 코딩 계획을 성공적으로 생성하여 79%의 계획 생성률을 보였다.
실무자들은 계획 생성된 527개 이슈 중 433개 이슈에 대한 코딩 계획을 승인하여 82%의 계획 승인율을 보였다.
HULA는 코딩 계획이 승인된 433개 이슈 중 376개 이슈에 대해 코드 변경을 성공적으로 생성하여 87%의 코드 생성률을 보였다.
HULA가 생성한 코드는 376개 이슈 중 95개 이슈에 대해 PR로 제출되어 25%의 PR 제출률을 기록했다.
HULA가 생성한 코드를 포함하는 95개의 PR 중 56개가 병합되어 59%의 PR 병합률을 기록했다.
HULA와 상호 작용한 이슈 중 8%가 HULA 지원 PR을 통해 코드 저장소에 성공적으로 병합되었다.
설문 조사에 참여한 109명 중 82%가 HULA가 식별한 파일이 이슈 설명과 관련성이 있다는 데 동의하거나 중립적인 태도를 보였다.
설문 조사에 참여한 109명 중 76%가 HULA가 식별한 파일이 자신이 작업에 접근하는 방식과 일치한다는 데 동의하거나 중립적인 태도를 보였다.
설문 조사에 참여한 109명 중 69%가 HULA가 제안한 파일 변경 계획이 이슈 설명과 일치한다는 데 동의하거나 중립적인 태도를 보였다.
설문 조사에 참여한 109명 중 64%가 HULA가 제안한 파일 변경 계획이 자신이 작업에 접근하는 방식과 일치한다는 데 동의하거나 중립적인 태도를 보였다.
설문 조사에 참여한 109명 중 83%가 HULA가 생성한 코드를 쉽게 이해하고 수정할 수 있다는 데 동의하거나 중립적인 태도를 보였다.
설문 조사에 참여한 109명 중 50%가 HULA가 생성한 코드가 작업을 정확하게 해결한다는 데 동의하거나 중립적인 태도를 보였다.
설문 조사에 참여한 109명 중 54%가 HULA가 생성한 코드에 결함이 없고 비기능적 요구 사항을 충족한다는 데 동의하지 않았다.
설문 조사에 참여한 109명 중 67%가 HULA가 생성한 코드 변경이 완전하고 이슈를 완전히 해결한다는 데 동의하지 않았다.