핵심 개념
본 논문에서는 LLM, 메모리, 도구 및 전문가와의 상호 작용을 활용하여 복잡한 대화형 작업을 수행하도록 설계된 LLM 에이전트를 위한 새로운 강화 학습 프레임워크인 AGILE을 소개합니다.
초록
AGILE: LLM 에이전트를 위한 새로운 강화 학습 프레임워크
본 연구 논문에서는 LLM, 메모리, 도구 및 전문가와의 상호 작용을 활용하여 복잡한 대화형 작업을 수행하도록 설계된 LLM 에이전트를 위한 새로운 강화 학습 프레임워크인 AGILE(AGent that Interacts and Learns from Environments)을 소개합니다.
1. AGILE 프레임워크
AGILE은 LLM, 메모리, 도구 및 실행기의 네 가지 모듈로 구성됩니다.
LLM: 모든 작업의 예측기 역할을 하며, 지침을 생성하고 응답을 처리합니다.
메모리: 에이전트가 과거 정보 및 누적된 지식을 처리할 수 있도록 합니다.
도구: 외부 정보 검색 등의 작업을 수행합니다.
실행기: LLM 지침을 해석하여 해당 모듈을 활성화하고 LLM에 대한 응답을 수집합니다.
에이전트는 사용자 및 전문가와 상호 작용할 수 있습니다.
강화 학습(RL)을 기반으로 하여 다양한 구성 요소를 통합하고 학습 및 운영 프로세스를 간소화합니다.
2. ProductQA 데이터셋
기존 QA 벤치마크의 한계를 해결하기 위해 새로운 벤치마크인 ProductQA를 개발했습니다.
ProductQA는 온라인 쇼핑에서 발생하는 88,229개의 질문-답변 쌍으로 구성되어 있으며, 각각 고유한 Amazon 제품 범주에 해당하는 26개의 QA 작업으로 나뉩니다.
에이전트의 능력을 종합적으로 평가하기 위해 사실 기반 질문, 추론 질문 및 제품 추천 쿼리를 포함합니다.
3. 실험 및 결과
ProductQA, MedMCQA 및 HotPotQA의 세 가지 작업에서 에이전트 프레임워크를 평가했습니다.
ProductQA에서 agile-vic13b-ppo는 GPT-4보다 상대적 총 성능 점수가 9.2%, GPT-3.5보다 90.8% 향상되었습니다.
MedMCQA에서 agile-mek7b-ppo 에이전트는 기본 LLM의 정확도를 53.4%에서 85.2%로 향상시켰으며, 이는 GPT4-MedPrompt의 SOTA 정확도인 79.1%를 능가합니다.
HotPotQA에서 agile-vic13b-ppo 에이전트는 67.5%의 정확도를 달성하여 가장 강력한 기준선인 48.2%를 능가했습니다.
절제 연구를 통해 메모리, 도구, 컨설팅, 리플렉션 및 강화 학습을 포함한 모든 모듈이 에이전트의 강력한 성능을 달성하는 데 필수적임을 확인했습니다.