Core Concepts
n-그램 및 트랜스포머 모델에서 가장 가능성 높은 단어 시퀀스를 효율적으로 생성하는 롤아웃 기반 방법론을 제안한다.
Abstract
이 논문은 ChatGPT와 같은 트랜스포머 모델에서 다음 단어 확률을 활용하여 가장 가능성 높은 단어 시퀀스를 생성하는 방법을 다룬다.
- 최적의 단어 시퀀스를 찾는 문제는 계산적으로 어려운 과제이므로, 저자들은 롤아웃 기반 접근법을 제안한다.
- 롤아웃 방법은 단순 탐욕 휴리스틱보다 계산량이 다소 증가하지만, 최적 시퀀스 생성 방법에 비해 훨씬 효율적이다.
- 롤아웃 알고리즘은 마르코프 체인 기반 모델뿐만 아니라 HMM과 같은 다른 추론 문제에도 적용될 수 있다.
- 저자들은 분석, 예시, 실험을 통해 롤아웃 방법이 가장 가능성 높은 시퀀스를 생성할 수 있음을 보여준다.
Stats
단어 시퀀스 생성 문제에서 최적 해를 찾는 것은 계산적으로 어려운 과제이다.
탐욕 휴리스틱 방식은 계산량이 적지만 최적성을 보장하지 않는다.
롤아웃 방식은 탐욕 휴리스틱보다 계산량이 다소 증가하지만, 최적 시퀀스에 근접한 결과를 생성할 수 있다.
Quotes
"Computing the optimal (i.e., most likely) word sequence starting with a given initial state is an intractable problem, so we propose methods to compute highly likely sequences of N words in time that is a low order polynomial in N and in the vocabulary size of the n-gram."
"The rollout approach produces highly likely (near optimal) sequences, with computation that is larger than the greedy selection method by a factor that is proportional to N and to the size of the n-gram's vocabulary."