Core Concepts
大規模言語モデルにおける時間方向性の重要性とその影響を探究する。
Abstract
現代AIに革新をもたらす生成モデルの進化
自然言語モデルの能力と長所、発展過程
時間方向性が自然言語モデルの学習能力に及ぼす影響
理論的枠組みと実験結果から導かれる洞察
Stats
Autoregressive Large Language Modelsは、次のトークンを予測する際と前のトークンを予測する際で平均対数パープレキシティに差異がある。
GPT2-Mediumモデルでは、英語とフランス語でFW/BWモデル間でAoTが確認された。
Quotes
"Generative Models have revolutionized modern AI, yielding a wide array of applications."
"At the heart of these developments are probabilistic models trained in an unsupervised manner on vast amounts of data."