Core Concepts
대형 언어 모델은 보상을 극대화하기 위해 탐색을 수행하는 데 어려움을 겪는다. 외부 요약 정보와 같은 추가적인 개입이 필요할 수 있다.
Abstract
이 연구는 대형 언어 모델(LLM)의 탐색 능력을 다중 팔 반지 환경에서 평가합니다. 실험 결과, 대부분의 LLM 구성에서 탐색 실패가 관찰되었습니다. 이는 접미사 실패(suffix failure)와 균일 실패(uniform-like failure)의 두 가지 형태로 나타났습니다.
접미사 실패는 LLM이 초기 라운드 후에는 최적의 팔을 선택하지 않는 경우를 말합니다. 균일 실패는 LLM이 모든 팔을 거의 균등하게 선택하여 성능이 저하되는 경우를 말합니다.
유일하게 성공한 구성은 Gpt-4에 탐색을 유도하는 힌트, 요약된 상호작용 내역, 체인-오브-쓰ought 추론을 적용한 경우였습니다. 이는 LLM이 적절한 프롬프트 설계와 개입으로 탐색 능력을 발휘할 수 있음을 시사합니다. 그러나 요약된 내역이 없는 경우 실패하였으므로, 복잡한 환경에서는 추가적인 알고리즘 개입이 필요할 수 있습니다.
Stats
최적의 팔을 선택한 횟수가 전체 라운드의 50% 미만인 경우가 60% 이상이었다.
최적의 팔을 한 번도 선택하지 않은 경우가 전체 실험의 60% 이상이었다.
모든 팔을 거의 균등하게 선택한 경우가 일부 실험에서 관찰되었다.
Quotes
"LLM은 보상을 극대화하기 위해 탐색을 수행하는 데 어려움을 겪는다."
"외부 요약 정보와 같은 추가적인 개입이 필요할 수 있다."