Core Concepts
トランスフォーマーが提供する次の単語の確率を活用して、高い確率で単語シーケンスを生成する方法に焦点を当てる。
Abstract
トランスフォーマーはn-gram構造を持つモデルとして考えられる。
単語シーケンスの計算は最適な単語列の開始が難しいため、ロールアウトアプローチを提案。
ロールアウトアルゴリズムは近似動的プログラミングから派生し、効果的なシーケンス生成が可能。
最も可能性の高いシーケンス選択ポリシーは計算量が指数関数的に増加するため、ロールアウト手法が中間的な解決策として提案されている。
ロールアウト手法は強化学習の近似値空間手法と密接に関連しており、ニュートン法の一部として解釈される。
導入
GPTは革新的な応用分野で注目されており、本論文ではそのn-gramモデルに焦点を当てる。
選択ポリシー
Greedy選択:次の状態を最大化する単語が選択される。
最も可能性の高いシーケンス選択:N個の状態から最も確率が高い単語列を選択。
ロールアウト手法
近似DP手法であり、計算量が指数関数的ではなく効果的。