Core Concepts
대규모 언어 모델과 강화 학습을 결합하여 웹 탐색 작업을 수행하는 에이전트의 성능을 향상시키는 새로운 접근법을 제안한다.
Abstract
이 연구는 대규모 언어 모델(LLM)과 강화 학습(RL)을 활용하여 웹 탐색 작업을 수행하는 에이전트의 성능을 향상시키는 새로운 접근법을 제안한다.
먼저, 감독 학습(SL) 기반 모델과 RL 기반 모델의 장단점을 분석하고, 두 방법의 장점을 결합하는 접근법을 제안한다. 또한 이전 모델들의 HTML 콘텐츠 이해 능력의 한계를 지적하고, 이를 개선하기 위한 방법을 제시한다.
실험 결과, 제안된 접근법은 SL 기반 방법보다 우수한 성능을 보이며, RL 기반 모델과의 성능 격차를 줄일 수 있었다. 평균 정확도 43.58%를 달성한 SL 기반 모델과 36.69%를 달성한 멀티모달 RL 기반 모델을 통해 웹 탐색 과제 수행을 위한 새로운 방향을 제시한다.
Stats
제안된 T5-large 모델은 계층적 계획 작업에서 43.49%의 평균 정확도를 달성했다.
T5-base 모델은 계층적 계획 작업에서 39.77%의 평균 정확도를 보였다.
CC-NeT5 모델은 감독 학습 단계에서 36.69%의 평균 정확도를 보였으나, 강화 학습 단계에서 33.86%로 성능이 하락했다.
Quotes
"최근 언어 모델의 발전은 웹 탐색과 같은 다양한 자연어 처리(NLP) 작업에서 눈에 띄는 성능 향상을 보여주었다."
"감독 학습 기반 모델은 훨씬 적은 학습 데이터로도 인상적인 성능을 달성했지만, 강화 학습 기반 접근법에 비해 여전히 부족한 모습을 보였다."
"이 연구는 LLM과 RL의 장점을 결합하여 웹 탐색 작업을 수행하는 에이전트의 성능을 향상시키는 새로운 접근법을 제안한다."