Core Concepts
モデルの構造的性質を定義し、その複雑性を理論的に分析することで、モデルの一般化能力を理解する。
Abstract
本論文では、モデルの構造的性質を定義し、その複雑性を理論的に分析することで、モデルの一般化能力を理解することを目的としている。
まず、「構造的性質」を持つ関数を一般的に定義し、その複雑性を「局所的影響度」(LoI)という指標で定量化している。この定義に基づき、既存のモデルアーキテクチャ(再帰型、畳み込み型、アテンション型など)がどのように構造的性質を持つかを分析し、それぞれのLoIを明らかにしている。
次に、入力に依存しない固定の構造を持つモデルが、入力に依存した構造を持つ関数を近似する能力について理論的な保証を示している。この結果は、入力依存の構造が重要であることを示唆している。
最後に、構造的性質が明確に分離された関数クラスについて、体系的な一般化能力の理論的保証を示している。この保証は、提案した構造的複雑性指標と一般化能力の関係を明らかにしている。
全体として、本論文は、モデルの構造的性質を理論的に分析し、一般化能力との関係を明らかにすることで、構造的性質を持つモデルの設計指針を提示している。
Stats
モデルの構造的複雑性を表す指標「局所的影響度(LoI)」は、入力トークンの変化がモデルの出力に与える影響の大きさを表す。
再帰型モデルのLoIは入力長に対して指数的に増大するのに対し、畳み込み+プーリングモデルやトランスフォーマーモデルのLoIは入力長に対して線形/対数的に増大する。
トランスフォーマーモデルのLoIは入力長に対して大きいが、相対的LoIは1/Lと小さい。一方、再帰型モデルの相対的LoIは1/2以上と大きい。
Quotes
"モデルの構造的性質を定義し、その複雑性を理論的に分析することで、モデルの一般化能力を理解する。"
"入力に依存しない固定の構造を持つモデルが、入力に依存した構造を持つ関数を近似する能力について理論的な保証を示している。"
"構造的性質が明確に分離された関数クラスについて、体系的な一般化能力の理論的保証を示している。"