Core Concepts
대형 언어 모델을 활용한 의사결정 문제에서 불확실성 추정이 중요한 역할을 한다.
Abstract
이 논문은 자연어 입력을 활용한 의사결정 문제에서 불확실성의 역할을 조사한다. 이러한 작업에서 대형 언어 모델(LLM)을 에이전트로 사용하는 것이 일반적이지만, 최근 접근법 중 에이전트의 불확실성을 추정하는 방법은 없다.
저자들은 텍스트 컨텍스트로 구성된 contextual bandit 문제에 초점을 맞추었다. 이를 위해 사전 학습된 LLM으로 초기화된 딥 회귀 모델을 사용했다. 불확실성 추정 없이 가장 큰 예측 보상을 선택하는 탐욕 정책을 기준으로 삼았다. 이를 Thompson Sampling을 통해 불확실성 정보를 활용하는 접근법과 비교했다.
저자들은 dropout, Laplace 근사, epinet 등 다양한 기법을 LLM에 적용하여 불확실성을 추정했다. 실제 데이터에 대한 실험 결과, 불확실성 정보를 활용하는 접근법이 탐욕 정책에 비해 크게 향상된 성능을 보였다. 이는 텍스트와 LLM을 활용한 bandit 문제에서 불확실성 모델링의 중요성을 보여준다.
Stats
관찰된 데이터 포인트가 3000개일 때, 탐욕 정책의 평균 regret은 0.325이다.
관찰된 데이터 포인트가 3000개일 때, Diag. LA TS, Last LA TS, Dropout TS, Epinet TS의 평균 regret은 각각 약 0.225, 0.225, 0.225, 0.25이다.