核心概念
ReLUネットワークとトランスフォーマーネットワークは異なる論理的構造を持つことを示す。前者はプレトポスに属し、後者はその完備化であるトポスに属する。
要約
本論文は、ニューラルネットワークアーキテクチャの理論的分析を行っている。
まず、ReLUネットワークを定義し、それらがピースワイズ線形関数の圏PL内に埋め込まれることを示す。次に、トランスフォーマーネットワークの自己注意メカニズムを分解し、それがPLの完備化であるトポスΣPLに属することを示す。
この違いは、ReLUネットワークが一階論理を実装しているのに対し、トランスフォーマーは高階論理を実装していることを意味する。つまり、トランスフォーマーは入力に依存して異なるアーキテクチャを選択し、評価するという特性を持つ。
さらに、この分析に基づいて、アーキテクチャ探索とグラジエントディセントを圏論的に定式化する。これにより、トランスフォーマーの振る舞いを、パラメータ空間の選択と評価の観点から理解できる。
全体として、本論文は、ニューラルネットワークアーキテクチャの理論的理解を深めるとともに、新しいアーキテクチャの設計指針を提供する可能性がある。
統計
ReLUネットワークは、入力xに対して以下のように計算される:
z(l) = σ(W(l)z(l-1) + b(l)), l ∈ [L]
ここで、σはReLU活性化関数、W(l)とb(l)はそれぞれ重みとバイアスである。
トランスフォーマーのself-attention機構は以下のように分解できる:
Att(X; WK, WQ, WV) = softmax((WQT X)(WKT X)T / √d)WTV X
ここで、WK, WQ, WVは学習可能なパラメータである。
引用
"トランスフォーマーネットワークは、プレトポスに属するReLUネットワークとは異なり、その完備化であるトポスに属する。"
"ReLUネットワークは一階論理を実装しているのに対し、トランスフォーマーは高階論理を実装している。"
"トランスフォーマーは入力に依存して異なるアーキテクチャを選択し、評価するという特性を持つ。"