핵심 개념
LLM과 환경을 조화시키는 TWOSOME 프레임워크를 통해 실전 경험으로부터 진실된 지식을 얻는 것이 중요하다.
통계
LLMs의 성능은 많은 작업에서 뛰어나지만, 단순한 의사 결정 작업을 해결하는 데 실패할 수 있다.
RL 에이전트는 환경과 항상 조화를 이루지만 사전 지식을 효율적으로 탐색하기 어렵다.
인용구
"TWOSOME은 LLMs를 의사 결정 에이전트로 배치하여 RL을 통해 환경과 조화를 이루도록 하는 새로운 온라인 프레임워크를 제안한다."