Core Concepts
MMAC-Copilot은 다양한 에이전트의 전문성을 활용하여 운영 체제와의 상호작용 능력을 향상시킨다.
Abstract
MMAC-Copilot은 다중 모달 에이전트 협업 프레임워크로, 다양한 에이전트의 전문성을 활용하여 운영 체제와의 상호작용 능력을 향상시킨다. 이 프레임워크는 "기획자", "사서", "프로그래머", "뷰어", "비디오 분석가", "멘토" 등 6개의 에이전트로 구성되어 있다.
기획자는 전략적 계획 수립과 자원 할당을 담당하며, 사서는 질문 답변과 API 정보 검색을 수행한다. 프로그래머는 코드 실행과 Bash 명령어 처리에 전문성을 가지고, 뷰어는 이미지 내용 이해와 클릭 상호작용을 담당한다. 비디오 분석가는 비디오 콘텐츠 분석과 핵심 이벤트 추출을 수행하며, 멘토는 시스템 운영과 에이전트 간 상호작용을 감독한다.
사용자 요청이 들어오면 기획자가 초기 계획을 수립하고, 다른 에이전트들과 협업 체인을 통해 정보와 통찰을 교환하며 계획을 지속적으로 개선한다. 이를 통해 다양한 모달리티를 활용하여 운영 체제와의 상호작용 능력을 향상시킨다.
MMAC-Copilot은 GAIA 벤치마크와 새로 도입된 VIBench에서 우수한 성능을 보였다. VIBench는 3D 게임, 레크리에이션, 사무 환경 등 다양한 도메인의 비 API 상호작용 애플리케이션을 평가하며, MMAC-Copilot은 이러한 복잡한 GUI 환경에서 뛰어난 적응력을 보였다.
Stats
사용자 요청 "Discord 앱을 열고 Dylan Li에게 인사하기"에 대해 MMAC-Copilot이 수행한 5개의 하위 작업은 다음과 같습니다:
Discord 열기
친구 목록으로 이동하기
Dylan Li 검색하기
Dylan Li와의 채팅방 열기
메시지 보내기
Quotes
"MMAC-Copilot은 다양한 에이전트의 전문성을 활용하여 운영 체제와의 상호작용 능력을 향상시킨다."
"팀 협업 체인을 통해 참여 에이전트가 자신의 전문 지식을 바탕으로 초기 계획을 조정할 수 있어, 지식 도메인 간 격차로 인한 환각을 해결할 수 있다."