이 논문은 실제 웹사이트를 활용한 다중 모달 다중 홉 인터넷 에이전트 벤치마크인 MMInA를 소개한다. MMInA는 다음과 같은 특징을 가지고 있다:
14개의 다양한 웹사이트에서 1,050개의 다중 모달 다중 홉 과제를 제공하며, 최신 언어 모델(LLM)과 다중 모달 모델(LMM)을 에이전트로 평가하고 인간 기준선을 제시한다.
다중 홉 과제의 성공률을 홉 단위와 전체 과제 단위로 평가하는 새로운 방법론을 제안한다.
에이전트의 절차적 기억을 강화하는 메모리 증강 방법을 제안하여 단일 홉 및 다중 홉 웹 탐색 능력을 크게 향상시킨다.
실험 결과, 현재 최신 모델들은 다중 홉 과제에서 큰 어려움을 겪는 것으로 나타났다. 특히 초기 홉에서 실패율이 높아 전체 과제 성공률이 낮게 나타났다. 제안한 메모리 증강 방법은 이러한 한계를 효과적으로 극복할 수 있음을 보여주었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ziniu Zhang,... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09992.pdfDeeper Inquiries