Kernekoncepter
LLM과 환경을 조화시키는 TWOSOME 프레임워크를 통해 실전 경험으로부터 진실된 지식을 얻는 것이 중요하다.
Resumé
Abstract:
LLMs의 성능은 많은 작업에서 뛰어나지만, 단순한 의사 결정 작업을 해결하는 데 실패할 수 있다.
RL 에이전트는 환경과 항상 조화를 이루지만 사전 지식을 효율적으로 탐색하기 어렵다.
TWOSOME은 LLMs를 의사 결정 에이전트로 배치하여 RL을 통해 환경과 조화를 이루도록 하는 새로운 온라인 프레임워크를 제안한다.
Introduction:
LLMs는 자연어 생성 및 이해에서 높은 성공을 보여주었지만, 단순한 의사 결정 작업에서 실패할 수 있다.
RL은 에이전트의 정책을 환경과 조화시키기 위해 scratch에서 학습한다.
Related Work:
최근 연구들은 LLMs를 로봇 학습 및 시뮬레이션 환경에서 계획 및 추론에 활용한다.
다양한 파라미터 효율적인 파인튜닝 방법들이 소개되었다.
TWOSOME:
TWOSOME은 LLMs를 환경과 조화시키기 위한 새로운 온라인 프레임워크이다.
LLMs가 직접 행동을 생성하는 대신, 행동의 확률을 결정하기 위해 LLMs의 점수를 쿼리한다.
Experiments:
Overcooked 및 VirtualHome 환경에서 TWOSOME의 성능을 평가했다.
Word normalization을 사용한 TWOSOME가 가장 우수한 성능을 보였다.
Statistik
LLMs의 성능은 많은 작업에서 뛰어나지만, 단순한 의사 결정 작업을 해결하는 데 실패할 수 있다.
RL 에이전트는 환경과 항상 조화를 이루지만 사전 지식을 효율적으로 탐색하기 어렵다.
Citater
"TWOSOME은 LLMs를 의사 결정 에이전트로 배치하여 RL을 통해 환경과 조화를 이루도록 하는 새로운 온라인 프레임워크를 제안한다."