본 논문은 LLM 기반 다중 에이전트 시스템에서 에이전트 간의 통신량을 줄여 토큰 사용량을 줄이고 비용 효율성을 높이는 AgentPrune 프레임워크를 제안합니다.
최근 대규모 언어 모델(LLM) 기반 에이전트는 추론, 코드 생성, 비디오 게임, 자율 주행 시스템 등 다양한 작업에서 뛰어난 성능을 보여주고 있습니다. 특히 여러 LLM 기반 에이전트를 하나의 팀으로 결합하면 복잡한 작업을 처리할 때 단일 에이전트보다 뛰어난 성능을 발휘할 수 있습니다. 이는 다중 에이전트 시스템에서 인간과 유사한 협업 지능의 존재를 뒷받침합니다. 그러나 이러한 다중 에이전트 시스템의 성공은 상당한 토큰 소비 증가라는 대가를 치르게 되며, 이는 상당한 경제적 부담을 야기합니다.
이러한 한계를 극복하기 위해 본 논문에서는 LLM 기반 다중 에이전트(LLM-MA) 통신 토폴로지 내에서 상당 부분의 메시지 전달이 협업 지능에 의미 있게 기여하지 않는다는 점을 지적하고, 이를 "통신 중복성"이라고 정의합니다. 이러한 문제를 해결하기 위해 AgentPrune이라는 경제적이고 다재다능한 통신 프루닝 프레임워크를 제안합니다. AgentPrune은 다양한 기존 LLM-MA 시스템에 원활하게 통합되어 유사한 추론 및 계획 성능을 제공하는 동시에 토큰 소비를 크게 줄입니다.
AgentPrune은 전체 LLM-MA 프레임워크를 시공간적 통신 그래프로 취급합니다. 각 에이전트는 고유한 속성(예: 프로필, 외부 API 도구 또는 지식 기반)과 함께 노드로 패키징되고, 동일한 대화 내에서 에이전트 간의 통신은 공간적 에지를 형성하고, 대화 간의 통신은 시간적 에지를 형성합니다. AgentPrune은 학습 가능한 저랭크 원칙 기반 그래프 마스크를 사용하여 중요한 그래프 연결성(즉, 에지를 통한 메시지 전달)을 효율적으로 식별합니다. 이를 통해 토큰 효율적이고 고성능의 통신 토폴로지를 생성하는 원샷 프루닝을 통해 스파스하면서도 유익한 통신 그래프를 도출합니다.
6개의 벤치마크에서 수행된 광범위한 실험을 통해 AgentPrune이 다음과 같은 성과를 달성했음을 보여줍니다.
AgentPrune은 LLM 기반 다중 에이전트 시스템에서 통신 중복성 문제를 해결하는 효과적인 솔루션입니다. AgentPrune을 사용하면 개발자는 성능 저하 없이 토큰 소비를 줄이고 LLM-MA 시스템의 경제성을 향상시킬 수 있습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문