핵심 개념
RNNセクエンス・ツー・シーケンスモデルは、同一性、反転、完全重複、二次コピーの4つの変換タスクを学習する際に、トレーニングデータや入力分布に適合する写像を近似するにとどまり、基礎となる関数を学習することはできない。注意機構は学習効率と堅牢性を高めるが、分布外一般化の限界を克服することはできない。
초록
本論文は、RNNセクエンス・ツー・シーケンスモデルの4つの変換タスクの学習能力を調査した。これらのタスクは伝統的に有限状態変換器で研究されており、複雑性が増していく。
実験の結果、RNNセクエンス・ツー・シーケンスモデルは、トレーニングデータや入力分布に適合する写像を近似するにとどまり、基礎となる関数を学習することはできないことが分かった。注意機構は学習効率と堅牢性を高めるが、分布外一般化の限界を克服することはできない。
注意機構の有無に関わらず、4つのタスクの複雑性階層は以下のようになる:二次コピー > 完全重複 > 同一性 > 反転。この階層は形式言語理論の複雑性階層と関連付けられる。
RNNの変種も結果に影響を及ぼす。特に、単純RNNセクエンス・ツー・シーケンスモデルは入力長を数えることができない。
통계
RNNセクエンス・ツー・シーケンスモデルは、トレーニングデータや入力分布に適合する写像を近似するにとどまり、基礎となる関数を学習することはできない。
注意機構は学習効率と堅牢性を高めるが、分布外一般化の限界を克服することはできない。
4つのタスクの複雑性階層は以下のようになる:二次コピー > 完全重複 > 同一性 > 反転。
単純RNNセクエンス・ツー・シーケンスモデルは入力長を数えることができない。
인용구
"RNNセクエンス・ツー・シーケンスモデルは、トレーニングデータや入力分布に適合する写像を近似するにとどまり、基礎となる関数を学習することはできない。"
"注意機構は学習効率と堅牢性を高めるが、分布外一般化の限界を克服することはできない。"
"4つのタスクの複雑性階層は以下のようになる:二次コピー > 完全重複 > 同一性 > 反転。"
"単純RNNセクエンス・ツー・シーケンスモデルは入力長を数えることができない。"