Centrala begrepp
본 논문에서는 상호 학습을 통해 다중 모달 검색 기능을 갖춘 MLLM 기반 검색기를 제안하여, 임베디드 에이전트가 이전 경험에서 얻은 다중 모달 궤적 데이터를 효과적으로 활용하여 새로운 작업을 효율적으로 수행하도록 돕는 방법을 제시합니다.
Sammanfattning
MLLM 기반 검색기를 이용한 다중 모달 검색: 임베디드 에이전트를 위한 상호 학습
본 논문은 임베디드 에이전트가 복잡한 환경에서 효과적으로 작업을 수행하기 위해 다중 모달 검색 기능을 갖춘 MLLM(Multimodal Large Language Model) 기반 검색기를 활용하는 방법을 제시하는 연구 논문입니다.
기존의 임베디드 에이전트는 작업 수행에 필요한 작업 관련 지식이 부족하여 새로운 환경에서 성능이 제한되는 문제점을 가지고 있었습니다. 본 연구는 이러한 문제를 해결하기 위해, 에이전트가 이전 경험에서 얻은 다중 모달 궤적 데이터를 효과적으로 활용하여 새로운 작업을 효율적으로 수행할 수 있도록 돕는 MLLM 기반 검색기, MART(MLLM As ReTriever)를 제안합니다.
상호 학습 기반 검색기: MART는 상호 학습을 통해 궤적의 효과성을 평가하고, 현재 작업에 가장 효과적인 궤적을 우선적으로 검색합니다.
훈련 과정에서 에이전트는 다양한 참조 궤적을 제공받아 환경과 상호 작용하며, 각 궤적에 대한 성공률을 수집합니다.
수집된 성공률을 기반으로 궤적 간의 선호도 쌍을 생성하고, 이를 활용하여 Bradley-Terry 모델로 MLLM을 미세 조정합니다.
미세 조정된 MLLM은 새로운 작업에 대한 궤적의 효과성을 평가하고 우선 순위를 매길 수 있습니다.
궤적 요약: 긴 궤적 데이터에서 핵심 정보만 추출하여 에이전트의 이해도를 높이고, MLLM의 컨텍스트 창 제한을 해결하기 위해 궤적 요약 메커니즘을 도입했습니다.
또 다른 MLLM을 사용하여 궤적에서 현재 작업과 관련된 중요한 관찰을 식별하고, 이를 마일스톤으로 저장합니다.
마일스톤은 중요한 결정, 목표 달성, 환경 변화 등이 발생하는 지점을 나타냅니다.
요약된 궤적은 에이전트가 핵심 정보에 집중하여 작업을 효율적으로 수행하도록 돕습니다.