이 논문에서는 GeRM이라는 새로운 전문가 혼합 모델을 제안한다. GeRM은 시연 데이터와 비최적 데이터를 모두 활용하여 다양한 과제를 효과적으로 학습할 수 있다.
먼저, 자동 수집 방식으로 QUARD-Auto 데이터셋을 구축하여 성공 데이터와 실패 데이터를 모두 포함하였다. 이를 통해 인간의 시연 데이터의 한계를 극복하고 강화학습을 통해 성능을 향상시킬 수 있다.
다음으로, GeRM 모델을 제안하였다. GeRM은 Transformer 기반의 비전-언어-행동 모델로, 전문가 혼합 구조를 도입하여 빠른 추론 속도와 높은 모델 용량을 달성하였다. 이를 통해 제한된 강화학습 매개변수의 문제를 해결하고 다중 과제 학습의 성능을 향상시켰다.
실험 결과, GeRM은 다른 방법들에 비해 모든 과제에서 우수한 성능을 보였다. 또한 효율적인 학습과 데이터 활용, 그리고 새로운 기술 습득 등의 장점을 입증하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wenxuan Song... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13358.pdfDeeper Inquiries