本論文は、RNNセクエンス・ツー・シーケンスモデルの4つの変換タスクの学習能力を調査した。これらのタスクは伝統的に有限状態変換器で研究されており、複雑性が増していく。
実験の結果、RNNセクエンス・ツー・シーケンスモデルは、トレーニングデータや入力分布に適合する写像を近似するにとどまり、基礎となる関数を学習することはできないことが分かった。注意機構は学習効率と堅牢性を高めるが、分布外一般化の限界を克服することはできない。
注意機構の有無に関わらず、4つのタスクの複雑性階層は以下のようになる:二次コピー > 完全重複 > 同一性 > 反転。この階層は形式言語理論の複雑性階層と関連付けられる。
RNNの変種も結果に影響を及ぼす。特に、単純RNNセクエンス・ツー・シーケンスモデルは入力長を数えることができない。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Zhengxiang W... às arxiv.org 04-23-2024
https://arxiv.org/pdf/2303.06841.pdfPerguntas Mais Profundas