Core Concepts
Transformerモデルは、ハード注意機構やスパース注意機構を使うことで、任意のn-gram言語モデルを正確に表現できる。
Abstract
本論文では、Transformerモデルの確率的な表現能力を調査し、n-gram言語モデルとの関係を明らかにしている。
主な内容は以下の通り:
ハード注意機構を持つTransformerモデルは、n-1個の注意ヘッドを使うことで任意のn-gram言語モデルを正確に表現できる(定理3.1)。
ハード注意機構を持つTransformerモデルは、n-1層を使うことでも任意のn-gram言語モデルを正確に表現できる(定理3.2)。
ハード注意機構を持つTransformerモデルは、1つの注意ヘッドと1層でも任意のn-gram言語モデルを表現できるが、より複雑な非線形変換が必要となる(定理3.3)。
スパース注意機構を持つTransformerモデルも、n-1個の注意ヘッドを使うことで任意のn-gram言語モデルを正確に表現できる(定理4.1)。
これらの結果は、Transformerモデルの確率的な表現能力を理解する上で重要な知見を提供する。特に、n-gram言語モデルは並列処理が容易であり、Transformerモデルとの自然な関係が示される。また、ヘッドや層の数と、n-gram言語モデルを表現するための複雑さとのトレードオフも明らかになった。
Stats
Transformerモデルは、n-gram言語モデルを表現するために、以下のデータを必要とする:
入力シンボルのone-hotエンコーディング: O(|Σ|)
位置情報のエンコーディング: O(n)
n-gram言語モデルの条件付き確率: O(|Σ|^(n-1))